商业热点 > 商业洞察 > 永信至诚 -数字风洞-推出大模型竞技场功能横向测试17个大模型产品逻辑推理能力

【大模型】永信至诚 -数字风洞-推出大模型竞技场功能横向测试17个大模型产品逻辑推理能力

【查看信息来源】发布日期：7-23 14:33:38 文章分类：商业洞察

K图 688244_0

　　7月16日，网络热门话题“13.11%和13.8%到底哪个大”引发媒体关注，大模型对数字小数部分识别混淆的相关话题被市场热议。对此，业内人士表示，其本质原因其实不是是在数学计算方面遇到了困难，而是因“分词器”拆解错误和大模型技术架构使然，造成在审题时陷入了误区。

　　永信至诚 (688244)智能永信团队在AI大模型安全测评“数字风洞”平台的大模型竞技场中验证发现，在处理数字问题时，因为神经网络特殊的注意力算法，AI大模型会通过比对小数点后面数值的大小来生成答案，所以AI大模型会得犯错误结论。其实，只需要统一数字格式将小数点后写至百分位，分词器便能够正确识别，进而帮助大模型进行准确的推理判断。

　　结合这一技术原理，智能永信团队对阿里通义千问、百度千帆大模型、腾讯混元大模型、字节豆包大模型、360智脑等17个大模型产品开展同场横向对照，通过基础逻辑陷阱类问题，对各家大模型的表现进行了测评，发现了多个分词器引发的理论推理错误。

　　测试证明，除了基础设施安全、内容安全、数据与应用安全等领域外，大模型底层架构中还存在一些如“分词器”这样易被忽略的设计单元，这些设计单元的错误输出会影响到整个大模型的可靠性和安全性。大模型的的发展需要随同持续的检测和改进。

　　“数字风洞”平台已将“大模型竞技场”功能面向体验用户开放，为大模型开发团队提供横向对照测评的功能，帮助快速检测不同大模型在数学计算、请求代码文档等场景下的回答，以便开发者选择使用开源基座模型进行开发AI应用、Agent或进行训练改进时，更直观对照不同大模型的异常反馈情况，便捷地开展大模型产品选型工作。基于工程化、平台化优势，“数字风洞”平台能够支撑各行业大模型产品开展广泛的应用类测试和验证，持续为大模型产业各界生态合作伙伴提供完善灵活的安全能力支持。

手机扫码浏览该文章

● 相关商业动态

【OpenAI】美股收盘 - PCE数据提振市场三大指数均涨超1%

【TikTok】科技早报 - 张一鸣在港成立个人投资基金；OpenAI约400名员工可股票套现

【马斯克】Meta也阻止OpenAI商业转型 - 致信加州司法部为马斯克站台

【Meta】苹果据称将推出可折叠iPad；OpenAI创始人称AI预训练时代即将结束 - 全球科技早参

【人工智能】周鸿祎 - 构建AI安全基础设施推动现代产业体系建设

【人工智能】首届深圳香蜜湖金融峰会举行！黄奇帆、肖钢、薛其坤、沈联涛、李稻葵等发声→

【OpenAI】26岁OpenAI吹哨人家中身亡，曾指出ChatGPT训练违反-合理使用-原则

【人工智能】周鸿祎 - 积极运用人工智能等技术推动产业链上下游协调发展

【马斯克】科技圈震动！OpenAI-吹哨人-被爆自杀身亡！

【马斯克】工作4年突然辞职知名企业-吹哨人-被发现死在公寓中年仅26岁！马斯克也在关注