一篇 人工智能 (AI)领域的文章引起轩然大波。
这篇文章发表在《模式》杂志上,其汇总了先前一些研究,向人们揭示了一个真相:一些AI系统已学会了坑骗人类,即便是经过训练的、“表现”老实的系统。
它们坑骗的形式包含为人类行为提供不真实的解释,或向人类用户隐匿真相并误导他们。
这让人很惊恐。
因为它突显了人类对AI的控制有多困难,和人们自认为尚在掌控中的AI系统工作方式,有可能是不可预测的。
AI为啥要这么做?
AI模型为了实现它们的目标,会“搜索枯肠”地找到解决障碍的要领。有时这些变通办法会违背用户的期望,并且让人认为其具有坑骗性。
AI系统学会坑骗的一个领域,就是在游戏环境中,尤其是当这些游戏涉及采取战略行动时。AI经过训练,务必要实现获胜这一目的。
2022年11月,Meta公司宣布建立Cicero。这是一种能够在《外交》在线版本中击败人类的AI。《外交》是一款流行的军事战略游戏,玩家可以在其中建立谈判联盟,争夺对土地的控制权。
Meta的科研人员已经根据数据集的“真实”子集对Cicero进行了培训,使其在很大水平上老实且乐于助人,并且它“绝不会为了成功而故意背刺”盟友。但最新的文章揭示,事实刚好相反。Cicero会违反协议,彻完全底地撒谎,还能进行有预谋的坑骗。
文章作者很震惊:Cicero被特意训练要老实行事,但它却未能实现这一目标。这表明AI系统在进行忠诚训练后,仍然可以意外地学会坑骗。
Meta方面既没有证实也木有否认此次关于Cicero表现出坑骗行为的说法。一位讲话人表示,这纯粹是一个研究项目,该模型只是为了玩游戏而建立的。
但这其实不是唯一一个AI坑骗人类玩家获胜的游戏。
AI我们时常坑骗人类么?
阿尔法星是深度思维公司为玩电子游戏《星际争霸Ⅱ》而开发的AI。它非常擅长采取一种坑骗对手的技巧(称为佯攻),这个技巧使它击败了99.8% 的人类玩家。
另外一个名为Pluribus的AI系统,非常成功地学会了在扑克游戏中“虚张声势”,以至于科研人员决定不发布其代码,因为担忧它会破坏在线扑克社区。
除了游戏之外,AI坑骗行为还有其它例子。OpenAI的大型语言模型 GPT-4 在一次测试中展示出说谎能力。它试图说服人类为其解决验证码问题。该系统还在一次模拟演习中涉足冒充股票交易员的身份进行内幕交易,尽管从未被明确告知要这样做。
这些例子意味着,AI模型有可能在没有任何指示的情景下,以坑骗性的形式行事。这一事实令人担忧。但这也主要源于最顶尖的机器学习模型的“黑匣子”问题——不会确切地说出它们如何或为何发生这样的结局,或它们是否总是会表现出这种行为。
人类该怎么应对?
研究表明,大型语言模型和其它AI系统,似乎通过训练具有了坑骗的能力,包含操作、攀龙趋凤和在安全测试中作弊。
AI日益增强的“骗术”会造成严重风险。欺诈、篡改等属于短时间风险,人类对AI失去控制,则是长期风险。这需要人类积极主动地拿出解决方案,例如评估AI坑骗风险的监察管理框架、要求AI交互透明度的法律,和对检测AI坑骗的进一步研究。
这个问题说来轻松,操作起来非常复杂。科学家不能仅仅因为一个AI在测试环境中具有某些行为或倾向,就将其“抛弃或放生”。毕竟,这些将AI模型拟人化的倾向,已影响了测试方式和人们的意见。
剑桥大学AI研究员哈利·劳表示,监管机构和AI公司务必仔细权衡该技术造成危害的存在性,并明确区分一个模型能做什么和不能做什么。
劳认为,从根本上而言,目前不会训练出一个在所有情境下都不会坑人的AI。既然研究已经表明AI坑骗是可能的,那么下一步就要尝试理清楚坑骗行为可能造成的危害、有多大可能发生,和以何种方式发生。