人工智能 系统是否会坑骗人类,一直是各方都关注的问题。近期美国麻省理工学院一个研究团队称,部分 人工智能 系统已经学会如何坑骗人类,其中包含部分号称已经被训练成乐于助人和老实的系统。该研究成果发表在美国细胞出版社旗下的《模式》杂志上。
文章第壹作者、美国麻省理工学院 人工智能 安全领域博士后彼得·帕克和他的同事们分析了一点文献,重点关注了 人工智能 系统流传虚假信息的形式——通过习得性坑骗,它们系统地学会了“操作”他人。
科研人员发现的最有目共睹的 人工智能 系统坑骗例子是元宇宙平台公司的“西塞罗” 人工智能 系统,它被设计在一个虚拟外交战略游戏中作为人类玩家的对手。尽管元宇宙平台公司声称,“西塞罗” 人工智能 系统“在很大水平上是老实和乐于助人的”,并且在玩游戏时“从不故意背刺”它的人类盟友,但该公司发表的论文数据显示,该系统并没有公平地玩游戏。
“我们发现元宇宙平台公司的 人工智能 系统已经成为坑骗大师。”帕克说,“虽然元宇宙平台公司成功训练其 人工智能 系统在游戏中获胜——‘西塞罗’ 人工智能 系统在玩家排行榜中排名前10%——但没能训练它老实地获胜。”
其它 人工智能 系统则具有在扑克游戏中虚张声势的能力,或在战略游戏“星际争霸2”中为了击败对手而假装攻击的能力,和为了在谈判游戏中占上风而扭曲偏好的能力等。
科研人员表示,虽然 人工智能 系统在游戏中作弊似乎是无害的,但它可能会造成“坑骗性 人工智能 能力的突破”,并在未来演变成更顶级的 人工智能 坑骗形式。
帕克说:“我们需要尽可能多的时间,为未来 人工智能 产品和开源模型可能发生的更顶级坑骗做好准备。我们建议将坑骗性 人工智能 系统归类为高风险系统。”