商业洞察

【大模型】对话复旦大学副教授郑骁庆 - 当前AI仍是-高级别模仿-,离AGI还有一段距离

查看信息来源】   1-1 21:11:04  
人工智能】【大模型】【AGI】【高级别模仿】【副教授

  最近,“推迟”“疑问”“未达预期”该类词语频繁出现在 人工智能 (AI)行业的讨论和报道中。被众人期待“炸场”的OpenAI连续12天的AI发布会细细品来也少了些“革命性”的味道,更像是在已经有成果上的修修补补。

  此前,OpenAI的联合开创人伊尔亚·苏茨克维就曾在多个场合提到,AI的进步其实不是线性的,未来几年内,尽管有大量金额和研究投入,技术突破的速度可能会有所放缓。

  AI发展速度真的在放缓么?AI发展面临着哪些挑战?我们距离通用 人工智能 (AGI)还有多远?针对这些热点问题,《每日经济新闻》记者(以下简称NBD)专访了复旦大学计算机学院副教授、博士生导师郑骁庆。

  郑骁庆认为,赶快度来讲,AI发展并没有放缓,但目前AI发展面临着三大核心挑战:AI“幻觉”现象、数据隐私、算力和能源效率。在他看来,当前的AI技术仍然处于“顶级别模仿”的阶段,离真实的AGI还有一段距离。“AGI不仅需要在认知能力、学习能力等方面超越现有技术,还需在情感理解和自主决策等领域有所突破。”

  AI发展并未减速,但仍面临三大挑战

  NBD:在您看来,近期AI的发展速度相比过去两年,有怎样的变化?

  郑骁庆:我认为, 人工智能 的发展速度并没有放缓。

  新一轮生成式 人工智能 的标志性工作,实际上就是OpenAI在2022年底推出的ChatGPT。这样一个突破性的事情,距今仅有两年左右的时间。在这段时间里,ChatGPT的成功使得整个学术界和产学界投入了大量的人力和物力来推动生成式 人工智能 的发展。

  不能说当前 人工智能 技术的发展变慢了,其实,它仍在加速前进。当然,在发展的进程中,我们不可避免地会遇到一些问题和新的挑战,这些都是目前的确存在的。

  NBD:目前 人工智能 面临哪些重大挑战?

  郑骁庆:因为我的研究工作重要聚焦在自然语言处理和机器学习方面,所以我从这个领域来谈。

  首先,当前大型语言模型面临的一个主要问题是“幻觉”现象,即模型可能会生成看似正确但其实错误的信息。因为许多用户其实不具备鉴别信息真伪的能力,所以很轻易被这种“幻觉”影响。尤其是在医学、法律、金融等高风险应用领域中,存在一定风险。

  其次,大模型高度依赖 大数据 。其实,包含OpenAI在内的AI公司,在训练模型时,也并未透露其使用了哪些数据。因为这些数据或多或少会涉及版权或个人隐私。这种问题不仅存在于模型的构建和训练进程中,在用户在使用大模型时,也有可能泄露个人信息。因此,数据的隐私问题是另外一个重大挑战。

  最后,AI大模型的算力消耗巨大,资源成本高昂。如何降低使用门槛,让更多用户尤其是中小企业能够负担得起 人工智能 技术,是我们需要思考的问题。在巨大的计算和能源消耗情境下,如何实现更高效、更节能的AI系统,可能成为将来的发展方向。

  数据最小化:只取所需,不要贪多

  NBD:您认为有哪些关键技术可能会去解决或缓解这些挑战呢?

  郑骁庆:要缓解“幻觉”问题,一种策略是“对齐”。目前,较为成熟的技术手段是利用强化学习来实现与人类偏好的对齐。在对齐人类偏好的进程中,一个核心标准是“老实性”,即模型务必提供真实信息,而非胡编乱造。

  另外,“检索增强生成”(RAG)也是一项关键技术。在提问时先提供相关的背景资料,模型会通过检索这些资料来辅助生成答案,这样可以在一定水平上提高生成答案的准确性和可信度,缓解单纯依赖模型内部知识库可能引发的“幻觉”问题。

  还有一种技术是答案生成的后续验证。模型生成答案后,我们可以使用其它模型对答案中的关键观点和要素进行验证,以确保正确性。

  对于数据隐私问题,高质量的数据是高质量应用的条件,我认为企业需要找到创新与数据隐私之间的平衡点。首先,企业需要遵循数据最小化原则,只收集和使用与目标任务直接相关的最少量的数据,只取所需,而不要贪多。

  其次,企业务必要做好数据的加密和脱敏处理。尤其是在AI应用中,模型的练习数据如果没有保护好,攻击者可能通过模型推测出隐私信息,进而对企业和用户造成巨大的安全隐患。

  我们还可以商酌使用新技术来处理这个问题,好比联邦学习,它允许多个数据拥有者各自贡献出模型所需的练习数据,在数据联邦的情景下完成模型的练习,而不会泄露数据拥有者的数据。

  AI处于“顶级别模仿”阶段不具备“小样本学习”能力

  NBD:最近,OpenAI首席执行官萨姆· 阿尔特 曼在接受媒体采访时表示,预计通用 人工智能 (AGI)将在2025年到来。在您看来,我们离AGI近了么?

  郑骁庆: 阿尔特 曼作为OpenAI的首席执行官,从商业的视角而言,他对于AGI的实现可能会比较乐观。但对于我们研究者来讲,我持一定的保存意见。

  当前的AI技术,实质上仍是一种顶级别的模仿,与人类的智能完全不一样。人类的智能,打个比方,我们从小就能流畅地使用语言,并发生语言的新表达。但其实,我们在成上进程中接触到语言环境的数据量,远远小于当前 人工智能 模型接触到的数据量。说白了,人类大脑具有一种强大的小样本学习能力,即仅凭少量样本,就能泛化到未见过的情境,而这是目前模型无法做到的。

  目前,关于AGI还存在一个争议:AGI是要做仿真(根据人脑思路来做),还是根据实用主义的思路来做?具体而言,仿真路径主张在深入理解和模拟人脑机制的条件上构建 人工智能 系统;而实用主义路径则更加重视结果,认为只要 人工智能 全面的输出效果与人类相当,就可以认为其具备智能。

  如今的发展主要是在走实用主义的道路,而这条发展路径面临的最大的问题在于,尽管AI在某些单一任务上可能表现非常优异,但要从一个任务迁移到另外一个任务,尤其是面对全新任务时,往往需要大量的新数据重新进行训练。好比,我们教会AI文字表达,它的语音处理能力可能就不理想;而教会它语音,它的文字表达能力又可能受到影响。因此,在处理涉及多种数据形式(如文本、图像、音频)的跨模态任务时,AI的表现硬是不够出色。

  人类智能完全不同,人类能够依靠在其它任务中积累的经验,在新任务上同样表现出色。即便面对未知的任务,人类也能规划出探索和研究的路径,从而顺畅完成任务。因此,我认为通用 人工智能 务必具备通用性和迁移性。这种通用性迁移性意味着,一旦AI在某个任务上学会某项技能或知识,它应该能够将其迁移到各种不同类型的任务上。

  另外一个值得探讨的概念是,元学习(Meta Learning)。之所以提及元学习,是因为当前AI,包含ChatGPT在内,存在一个明显的问题:推理能力不足。元学习是一种更高条理的学习方法,它关注的是“学会如何学习”(learning to learn),而不只是学习什么。

繁体中文