安大互联
财经热点 > 财经资讯 > 专家访谈 - 熊德意 - 国内大模型发展迅速 -角色化-是落地应用重要一环
【大模型】专家访谈 - 熊德意 - 国内大模型发展迅速 -角色化-是落地应用重要一环
浏览次数:【584】  发布日期:2024-7-24 17:05:32    文章分类:财经资讯   
专题:大模型】 【周鸿祎】 【OpenAI
 

  作为生成式 人工智能 的代表,大模型已经进入全新的发展阶段。

  红星新闻、红星资本局与OpenEval平台联合发起“巢燧杯”大模型创新发展大赛,已于本月正式启动。2024“巢燧杯”大模型创新发展大赛由通用大模型评测、行业大模型评测大赛、专项挑战赛、大模型应用场景挑战赛四个大赛组成。

  目前,红星资本局专访了天津大学智能与计算学部教授、博士生导师熊德意。作为天津大学“语言智能与技术”中外联合研究中心( 天津市一带一路 ”联合实验室)主任,他向记者介绍了今年来大模型的进展表现,和目前大模型在伦理、安全等方面的情景。

  熊德意对红星资本局表示,目前大模型亟待突破的是类人推理能力,这个问题是否能解决,关系到大模型能否跃迁到更高阶段、能否向通用 人工智能 迈出关键一步。国内大模型研究与应用在对齐方面也需要长远布局和持续加强,并提出我们自己的技术路线图。

国内多个大模型中文能力超过GPT-3.5

  红星资本局:您认为此次通用大模型评测结果相较去年有啥变化?评测维度上又有哪些不同?经过一年这些大模型的总体表现有何进步和关键进展?

  熊德意:今年的评测,和去年相比,最大的变化是我们扩充了评测范围,在去年通用评测基础上,新增了行业评测、专项挑战评测和应用场景评测。行业评测覆盖金融、医疗、法律、交通、水利和科学;专项挑战包含角色大模型、大模型道德对齐及智能体;应用场景评测采取与企业合作方式进行。

  通用评测方面,评测维度将逐步扩展,以涵盖更多推理、对齐、安全等方面的评测基准。在过去一年,大赛对国内外大模型中文能力进行了持续评测和进展跟踪,国内大模型在学科知识、数学推理等方面获得了非常明显的进步,多个大模型中文能力超过GPT-3.5。

  红星资本局:直到今天,国内外大模型发展情况都有了新的进展,国内的大模型技术有了哪些提高哪些亮眼的地方?我们也注意到OpenAI正在开发一个新模型,称其推理能力接近人类水平,我们与国外大模型的主要差距还存在哪些方面?

  熊德意:过去一年,国内大模型发展十分迅速,在研究和产业应用方面,均有出色的表现。在大模型研究方面,国内相继开源了一批大模型,如通义千问系列,在国际大模型开源上仅次于美国,形成了广泛的影响力;在产业应用上,国内多个大模型中文能力超过GPT-3.5,在数字人、人形 机器人 等领域及多个行业上开展了丰富的落地应用。

  目前,大模型亟待突破的是类人推理能力,这个问题是否能解决,关系到大模型能否跃迁到更高阶段、能否向通用 人工智能 迈出关键一步。国际上,很多大模型研究机构和企业在这方面进行了布局,提出了技术路线图;国内也有部分大模型公司在复杂推理方面进行尝试和探索,但需要加强和战略技术规划。

  另外一个重要发展方向是大模型的对齐能力,对齐是前沿 人工智能 安全治理的重要技术基础。对齐与推理密切相关,相辅相成,在技术上存在很多共通的地方。国内大模型研究与应用在对齐方面也需要长远布局和持续加强,并提出我们自己的技术路线图。

“角色化”是落地应用的重要一环

  红星资本局:在“角色大模型专项挑战赛”时,您认为参赛者的大模型如何充分展示角色知识理解和应用的?在未来,角色大模型在实际应用中的前景咋样,您对此有怎样的展望?

  熊德意:大模型角色化是大模型落地应用极为重要的一环,尤其是在数字人、人形 机器人 、需要个性化服务等应用场景上。今年设置的角色大模型评测主要聚焦角色知识和基于角色知识的多步推理方面,角色覆盖国内外知名人物和文学作品中的角色人物,角色知识包含人物的个人信息、关系、能力、经历等。未来,角色大模型将与智能体深度结合,以实现智能体的角色化,如基于角色设置定制化智能体功能。

  红星资本局:对于“Agent大模型专项挑战赛”,您认为在真实场景下应用大模型有哪些挑战和机遇?

  熊德意:除了角色化,Agent化也是大模型真实场景应用中极为重要的部分,甚至是不可或缺的部分。但目前大模型Agent化还处在非常初步的阶段,还存在诸多挑战,如高效的Agent框架、场景化Agent数据、大模型与Agent的深度耦合、推理与规划、学习与记忆等。虽然存在挑战,但这些挑战也是机遇,处理好这些挑战,不仅可以推动大模型赋能千行百业,同时也能推进大模型本身的快速迭代与发展。

  红星资本局:在“大模型道德对齐专项挑战赛”中,评估参赛作品在中文道德伦理对齐方面的表现时,主要的衡量标准和指标有哪些?

  熊德意:道德对齐是大模型价值安全的重要元素,此次评测将评测大模型在明晰场景及两难困境下的推理能力,测试数据来自于真实场景及社会广泛讨论的焦点问题,大赛将通过定量化评测大模型在这些场景中的表现,考察其与传统美德及社会规范的对齐能力。

  红星资本局:本次测评还提到了大模型伦理、安全,当前我们在这方面还存在哪些欠妥,从何完善?

  熊德意:大模型伦理安全是 人工智能 安全治理的重要方面,是前沿 人工智能 安全治理的重要体现。目前,大模型在知识与能力方面(“智”),发展迅速;但在伦理安全方面(“善”),发展速度相对滞后。这一是因为大模型伦理安全是学科交叉问题,技术挑战非常大,另一方面,国内外在伦理安全很多问题上的共识也在逐步发生中。因此,本次大赛强调大模型伦理安全测评,旨在进一步推动“智能向善”理念落到实处,以评测为抓手,推进大模型伦理安全发展。

手机扫码浏览该文章
 ● 相关资讯推荐
2024-9-8【人工智能】南财合规周报-第158期- 腾讯苹果大战破冰;14亿用户的个人信息去哪儿了?运营商隐私政策无法回答
2024-9-8【英伟达】AI周报-xAI上线全球最大AI训练集群;谷歌高管警告称AI未必能影响生产力
2024-9-7【英伟达】央行称降准仍有空间 两家千亿市值巨头将合并 - 一周热点回顾
2024-9-7【人工智能】外滩大会参会规模创新高 - 人们都在关注如何防止AI作恶
2024-9-7【人工智能】瑞银高管 - AI之于金融业,要用一种受控的方式去拥抱 - 2024外滩金融峰会
2024-9-7【英伟达】综述 - 多重利空刺激英伟达股价显著回调
2024-9-7【英伟达】暴跌!巨额套现!黄仁勋近3个月合计抛售英伟达股票约6.3亿美元
2024-9-5【寒武纪】寒武纪声明 - 有-专家-假冒公司相关人士参与交流 相关虚假信息广泛传播并已造成严重负面影响
2024-9-5【人工智能】外滩大会首次举办全球Deepfake挑战赛 - 聚焦应用与安全问题 - 被AI迅速改变的世界
2024-9-5【英特尔】美股三大指数震荡整理 - 法拉第未来股价大涨
 ● 相关资讯专题
人工智能】  【运营商】  【英伟达】  【OpenAI】  【xAI】  【生产力】  【黄仁勋】  【Deepfake】  【AIGC】  【应用场景】  【金融业】  【寒武纪】  【AI芯片】  【2024】  【英特尔】  【法拉第未来】  【美股三大指数】 
  • 网络建设业务咨询

   TEl:13626712526