商业热点 > 商业洞察 > 永信至诚-数字风洞-推出大模型竞技场功能提供横向对比测评

【大模型】永信至诚-数字风洞-推出大模型竞技场功能提供横向对比测评

【查看信息来源】发布日期：7-23 14:04:28 文章分类：商业洞察

K图 688244_0

　　最近，网络热门话题“13.11%和13.8%到底哪个大”引发媒体关注。有媒体发现，面对这一问题，许多问答大模型无法正确回答，“一道小学生难度的数学题居然难倒了一众海内外AI大模型”。

　　关于大模型对数字小数部分的识别混淆问题，行业内早有关注，其本质原因其实不是是在数学计算方面遇到了困难，而是因“分词器”拆解错误和大模型技术架构使然，造成在审题时陷入了误区。除了数学类问题，包含在复杂字母图形的识别，复杂语句的梳理等场景下也都存在类似逻辑推理能力缺陷问题。永信至诚智能永信团队在AI大模型安全测评“数字风洞”平台的大模型竞技场中，详细展示了相关技术原理。

　　永信至诚大模型竞技场

　　在处理数字问题时，因为神经网络特殊的注意力算法，AI大模型会通过比对小数点后面数值的大小来生成答案，所以AI大模型会得犯错误结论。其实，只需要统一数字格式将小数点后写至百分位，分词器便能够正确识别，进而帮助大模型进行准确的推理判断。

　　大模型分词器原理

　　结合这一技术原理，智能永信团队对阿里通义千问、百度千帆大模型、腾讯混元大模型、字节豆包大模型、360智脑等17个大模型产品开展同场横向对照，通过基础逻辑陷阱类问题，对各家大模型表现进行测评。

　　分词器错误造成大模型陷入逻辑误区

　　上述示例证明，除了基础设施安全、内容安全、数据与应用安全等领域外，大模型底层架构中还存在一些如“分词器”这样易被忽略的设计单元，这些设计单元的错误输出会影响到整个大模型的可靠性和安全性。因此，大模型的发展需要随同持续的检测和改进。

　　永信至诚表示，“数字风洞”平台已将“大模型竞技场”功能面向体验用户开放，为大模型开发团队提供横向对照测评功能，帮助快速检测不同大模型在数学计算、请求代码文档等场景下的回答，以便开发者选择使用开源基座模型进行开发AI应用、Agent或进行训练改进时，更直观对照不同大模型的异常反馈情况，便捷开展大模型产品选型工作。（侯利红）

手机扫码浏览该文章

【OpenAI】AI周报-OpenAI计划重组公司结构；报告称字节今年AI投入接近 BAT三家总和

【小马智行】科技早报 - 美团将建立算法公开机制改善骑手工作体验；OpenAI董事会正评估公司结构

【OpenAI】美科技巨头突遭猛抛！什么原因？

【OpenAI】OpenAI计划转型为营利性公益公司 - 开发AGI需要更多资金

【ChatGPT】ChatGPT被人类骗得团团转！测试显示AI搜索极易受到操控和欺骗

【2024】科技风向标 - 传OpenAI已讨论开发一款人形机器人；小米辟谣裁员传闻；马斯克的xAI又融到60亿美元

【亚马逊】科技早报 - 小米辟谣-年底裁员-传闻；OpenAI讨论开发人形机器人

【OpenAI】美股收盘 - PCE数据提振市场三大指数均涨超1%

【TikTok】科技早报 - 张一鸣在港成立个人投资基金；OpenAI约400名员工可股票套现

● 相关商业热点