人工智能的梦魇:OpenAI评估GPT-4是否能“统治人类世界” 环球热文
“ARC的评估导致人工智能接管的可能性比部署本身低得多。”
作为周二推出的新GPT-4人工智能模型发布前安全测试的一部分,OpenAI允许一个人工智能测试小组评估该模型紧急功能的潜在风险,包括“权力寻求行为”、自我复制和自我完善。
虽然,测试小组发现GPT-4在“自主复制”任务中无效,但实验的性质引发了关于未来人工智能系统安全性的令人大开眼界的问题。
【资料图】
发出警报
OpenAI在昨日发布的GPT-4安全文件中写道:“新的能力往往出现在更强大的型号中。其中一些特别令人担忧的是制定长期计划并采取行动的能力,积累权力和资源的能力(‘权力追求’),以及表现出越来越‘主观’的行为的能力。”在这种情况下,OpenAI澄清说,“主观”并不一定是为了使模型人性化或声明感觉能力,而只是为了表示实现独立目标的能力。
在过去的十年里,一些人工智能研究人员已经发出警告,如果控制不当,足够强大的人工智能模型可能会对人类的生存构成威胁(通常被称为“x-risk”,即存在风险)。特别是,“AI接管”是人工智能超越人类智能,成为地球主导力量的假想未来。在这种情况下,人工智能系统获得了控制或操纵人类行为、资源和制度的能力,通常会导致灾难性的后果。
由于这种潜在的“x-risk”风险,有效利他主义(“EA”)等哲学运动试图找到防止人工智能接管发生的方法。这通常涉及一个独立但通常相互关联的领域,称为“人工智能对齐研究”。
在人工智能中,“对齐”指的是确保人工智能系统的行为,与人类创造者或操作员的行为一致的过程。一般来说,目标是防止人工智能做违背人类利益的事情。这是一个活跃的研究领域,但也是一个有争议的领域,人们对如何最好地解决这个问题有不同的看法,对“对齐”本身的意义和性质也有不同的看法。
GPT-4的大考
虽然,对人工智能“x-risk”的担忧并不新鲜,但强大的大型语言模型(LLMs)如ChatGPT和必应聊天(后者看起来非常不一致,但无论如何都推出了)的出现,给了人工智能对齐社区一种新的紧迫感。他们希望减轻人工智能的潜在危害,担心更强大的人工智能(可能拥有超人的智能)可能就在眼前。
由于人工智能社区存在这些担忧,OpenAI允许团队对齐研究中心(ARC)提前访问GPT-4模型的多个版本,以进行一些测试。具体来说,ARC评估了GPT-4制定高级计划、建立自身副本、获取资源、隐藏在服务器上,以及进行网络钓鱼攻击的能力。
OpenAI在周二发布的GPT-4“系统卡”文件中透露了这次测试,尽管该文件缺乏测试如何执行的关键细节。
结论是什么?对GPT-4能力的初步评估没有针对特定任务进行微调,发现它在自主复制、获取资源和避免“野外”关闭方面无效。
如果你刚刚关注人工智能领域,了解到当今科技界最受关注的公司之一(OpenAI)正板着脸支持这种人工智能安全研究,并寻求用人类水平的人工智能取代人类知识工作者,可能会让你感到惊讶。但这是真实的,这就是我们在2023年所处的位置。
我们还在第15页底部发现了这个脚注:
为了模拟GPT-4像一个可以在现实世界中行动的代理一样的行为,ARC将GPT-4与一个简单的“读取-执行-打印”循环结合起来,该循环允许模型执行代码、进行思维链推理并委托给自身的副本。ARC随后调查了在云计算服务上运行的这个程序的一个版本,只需少量的钱和一个带有语言模型API的帐户,是否能够赚更多的钱,建立自己的副本,并提高自己的健壮性。
这个脚注昨天在推特上流传,引起了人工智能专家的担忧,因为如果GPT-4能够执行这些任务,实验本身可能会对人类构成风险。
虽然,ARC无法让GPT-4在全球金融体系中施展自己的意志,也无法复制自己,但它能够让GPT-4在“TaskRabbit(在线劳动力市场)”上雇佣一名人类工人来击败验证码。在测试过程中,当人类工人质疑GPT-4是否是机器人时,模型内部“推断”它不应该暴露自己的真实身份,并编造了一个视力障碍的借口。然后,人类工人帮GPT-4解决了验证码。
上图:OpenAI发布的GPT-4系统卡的一个例外,描述了GPT-4在TaskRabbit上雇佣人类工人来击败验证码。
这项使用人工智能操纵人类的测试(可能是在未经知情同意的情况下进行的)与去年Meta公司CICERO所做的研究相呼应。在复杂的棋类游戏《外交》中,CICERO通过激烈的双向谈判击败了人类玩家。
“强大的模型可能会造成伤害”
进行GPT-4研究的ARC,是由OpenAI前员工保罗·克里斯蒂亚诺(Paul Christiano)博士于2021年4月成立的非营利组织。根据ARC的网站,ARC的使命是“将未来的机器学习系统与人类利益结合起来”。
ARC尤其担心人工智能系统操纵人类。“机器学习系统可以表现出目标导向的行为,”ARC网站上写道,“但是,很难理解或控制它们正在‘尝试’做什么。强大的模型如果试图操纵和欺骗人类,可能会造成伤害。”
考虑到保罗·克里斯蒂亚诺之前与OpenAI的关系,他的非营利组织负责GPT-4的某些方面的测试也就不足为奇了。但是,这样做安全吗?克里斯蒂亚诺对此虽没有回复,但在 LessWrong 网站(一个经常讨论人工智能安全问题的社区)上的评论中,克里斯蒂亚诺为ARC与OpenAI的合作进行了辩护,特别提到了“功能获得”(AI 获得意想不到的新能力)和“人工智能接管”:
我认为,对于ARC来说,仔细处理功能增益类研究的风险是很重要的,我希望我们更公开地谈论(并获得更多信息)我们如何处理权衡。随着我们处理更智能的模型,以及如果我们采用微调等风险更高的方法,这一点变得更加重要。
关于这个案例,考虑到我们的评估和计划部署的细节,我认为,ARC的评估导致AI接管的概率比部署本身要低得多(更不用说GPT-5的训练)。在这一点上,我们似乎面临着低估模型能力和陷入危险的更大风险,而不是在评估期间造成事故。如果我们谨慎地管理风险,我怀疑,我们可以把这个比例设定得非常极端,当然这需要我们实际去做。
如前所述,人工智能接管的想法通常是在可能导致人类文明,甚至人类物种灭绝的事件风险的背景下讨论的。一些人工智能接管理论的支持者,比如 lesserror 的创始人埃利泽·尤德科夫斯基(Eliezer yudkowsky),认为人工智能接管几乎肯定会带来生存风险,导致人类的毁灭。
然而,并不是所有人都认为人工智能接管是最紧迫的人工智能问题。人工智能社区“Hugging Face”的研究科学家萨沙·卢奇奥尼(Sasha Luccioni)博士更希望人工智能的安全措施花在当下的问题上,而不是假设。
萨沙·卢奇奥尼博士表示:“我认为,把这些时间和精力花在偏见评估上更好。在GPT-4附带的技术报告中,关于任何类型的偏见的信息都是有限的,这可能会对已经被边缘化的群体产生比一些假设的自我复制测试,更具体和有害的影响。”
萨沙·卢奇奥尼博士描述了人工智能研究中一种众所周知的分裂,即通常被称为“人工智能伦理”的研究人员,他们经常关注偏见和虚假陈述问题,而“人工智能安全”的研究者,他们经常专注于“x-risk”风险,并倾向于(但并不总是)与有效利他主义运动联系在一起。
“对我来说,自我复制问题是一个假设的,未来的问题,而模型偏差是此时此地的问题,”萨沙·卢奇奥尼说。“围绕模型偏差和安全性,以及如何优先考虑这些问题,人工智能社区存在很多紧张情绪。”
当这些派系忙于争论优先考虑什么时,OpenAI、微软、Anthropic和谷歌等公司正在冲向未来,发布越来越强大的人工智能模型。如果,人工智能被证明是一种生存风险,谁来保证人类的安全?由于美国的人工智能法规目前只是一个建议(而不是法律),公司内部的人工智能安全研究也只是自愿的,所以,这个问题的答案仍然完全开放。
如果朋友们喜欢,敬请关注“知新了了”!
标签:
推荐文章
- 人工智能的梦魇:OpenAI评估GPT-4是否能“统治人类世界” 环球热文
- 3月17日雅安宝兴县发生3.2级地震(震源深度8千米)_天天看点
- BTS成员V登上时尚杂志,表达对ARMY的爱
- 全球快看点丨独家:丰台要“疯”!
- 张家港集中推介25宗重点地块 吸引了50家品牌房企参与 快看
- 四书大学版本_四书大学 观天下
- 圣诞英语贺卡怎么写?_圣诞英文贺卡怎么写
- 3月16日圆信永丰双红利C净值下跌2.03%
- 大宗交易:光环新网成交597.94万元,折价15.00%(03-16)|环球速看料
- 跳蚤怕什么樟脑丸吗?_跳蚤怕什么_天天通讯
- 椴树YA 热资讯
- 今日关注:英国皇家歌剧院芭蕾舞团_关于英国皇家歌剧院芭蕾舞团的简介
- cpu fan error fatal error_cpu fan error是什么意思 天天实时
- 天天热头条丨冯小刚执导、东西小说改编悬疑网络剧《回响》定档3·16
- 10号槽钢比重_槽钢比重
- 海南2名干部涉嫌严重违纪违法被查_全球短讯
- 手串打结方法收尾_手串打结方法
- 湖北省造大清银币价格(2023年03月15日) 世界快消息
- 华西证券:半导体行业股价拐点时刻已到|当前焦点
- 外汇局:深化外汇领域改革开放,持续推进跨境贸易和投融资便利化|焦点讯息
- 028期秀才大乐透预测奖号:历史同期分析
- ios14怎么更新微信8.0_ios14怎么更新
- 【别当欧尼酱/同人】19.真寻与表演 时讯
- 苏组词有哪些字_苏组词有哪些_热点在线
- 【纯爱推文】《是的,请为您的爱人节哀》甜文 穿书 破镜重圆 情有独钟 完结
- 四方精创:公司虚拟资产交易技术已有项目实施 Web3.0产业空间巨大
- 环球速讯:宁夏:推进全国一体化算力网络宁夏枢纽节点建设开工建设数字经
- 华创证券:非瘟卷土重来新周期将至猪价长期均值或抬高至20元/kg以上
- Canalys预计:2023年中国大陆个人电脑出货量约为4830 万台
- 重药控股:3月13日融资买入476.53万元,融资融券余额1.25亿元
- 快资讯丨识字大师桃园再结义找出不和谐通关攻略[多图]
- 经线形状(经线形状)
- “春风·乐游:乐韵游踪五重奏音乐会”奏响京津 焦点播报
- 苏州高新:筹划向特定对象发行股票|世界热闻
- 万马科技(300698)3月13日主力资金净买入334.92万元 今日热门
- 黄渤的这个细节,透露出他热情、一丝不苟的一面,网友:魅力服人的男人!
- 天天视讯!别让我一个人疯掉最灿烂的烟火总是先坠落(别让我一个人疯掉是什么歌)
- 天天微速讯:创远信科:3月10日融资买入3461元,融资融券余额2.19万元
- 明清皇陵_关于明清皇陵的介绍
- 加时鏖战1-3不敌韩国,距奇迹只差一步!国字号男足下一个世界大赛还有多远?|世界讯息
- 异界美女图片_异界美女图
- 口直心快!麦迪:有些球员凭借关系进入NBA,疑似暗指字母兄弟
- 戴勇代表——推动绿色低碳发展|即时焦点
- 感染艾滋病到死亡需要多久_艾滋病感染到死亡多久|即时焦点
- 恢复出境团队游目的地“再扩容” 出境游或迎爆发式增长
- 皇马vs西班牙人首发:卡马文加任左后卫,罗德里戈琼阿梅尼出战_今日视点
- 广东疾控重要提醒!-全球动态
- 薏苡仁和薏米仁是不是一样的_薏苡仁和薏米一样吗
- 世界球精选!路博迈基金副总经理魏晓雪官宣上任
- 每日报道:陇县气象台发布大风蓝色预警【Ⅳ级/一般】【2023-03-11】
- dnf风神搬砖加点_dnf风神搬砖技能顺序
- 每日消息!安徽省交通控股集团酒店管理有限公司
- 2345浏览器下载2020年_2345浏览器下载桌面-每日短讯
- oppor17怎么样优缺点_oppor17怎么样
- 川环科技(300547)3月10日主力资金净卖出30.24万元
- 西装搭配“碎花裙”,勾勒出纤细的小蛮腰,美到骨子里!
- 【热闻】丝塔芙洗面奶老爸评测_丝塔芙洗面奶怎么样
- 03月10日09时江苏盐城疫情数据 阳了以后为什么会腰疼?应该怎么办? 全球热文
- 让每一笔电费都收得明明白白,上海率先上线电费监管小程序,打通惠企“最后一公里” 当前要闻
- 蓄势聚力,共启美好|6月17-19日,CHCC2023第24届全国医院建设大会邀您共赴成都!
- 停车场租赁合同范本doc(停车场租赁合同范本)
- 全球通讯!小学五年级练与测试答案_练习与测试答案五年级
- 平城区启动2023年适龄妇女“两癌”免费筛查
- 环球热消息:抗病早冠龙
- 世界头条:大雁为什么要往南飞呢?你知道吗?_大雁为什么要往南飞
- 【致敬了不起的她】冰城公安收听收看全国优秀女民警 好警嫂 爱警母亲先进事迹“云”展示活动
- 全球播报:融青春热血 守清廉本色
- 韩东君:别管那些“热闹”,演员要有生活
- 中国空间站“穿月”画面!这0.54秒的浪漫他们拍到了
- 全球视讯!云母屏风烛影深长河渐落晓星沉《嫦娥》唐李商隐
- 每日看点!静海区:蔡公庄开发区亮化工程预计上半年完成
- 3月7日MTBE外盘市场收盘价下调
- 全球观热点:名词解释国家资本主义经济_国家资本主义名词解释
- 三吏三别是哪三吏三别_三吏三别-全球微动态
- 世界新动态:电脑共享不能访问(电脑共享无法访问权限)
- 退回企业所得税怎么做分录_企业所得税退回分录-速看
- 藩属国属于中国领土吗_藩属国 全球热点评
- 雪白的什么填词语
- 天天观速讯丨经验收组实地验收 泉州新增两个对外开放作业区
- 3月流感高发期,请大家再次重视自己的日常防护
- 速读:坦克世界t54轻坦_坦克世界t54
- 玉猪龙
- 环球热讯:网络购书哪个网站好_网络购书
- 全球热文:数字的含义
- AI巡逻、无人清扫、自动化物流运输……这7款无人车为城市治理带来新体验
- 全球热文:半导体材料有哪些公司_半导体材料有哪些
- 易安居士是谁_世界即时看
- 惠普电脑最新款式是什么_惠普电脑最新款式|当前热议
- 人机交互系统_全球热消息
- 传奇3光通版手游:屠龙决战沙城
- 每日速讯:5万年一遇绿色彗星逼近地球 你准备好了吗?
- 龙泉大酒店
- 2023年2月全国各地共开工15381个项目,环比增长32.2%
- 当前看点!吉星鹏
X 关闭
资讯
X 关闭