安大互联
财经热点 > 财经资讯 > 9.11和9.9哪个大?简单数学题8家AI大模型平台都翻了车
【大模型】9.11和9.9哪个大?简单数学题8家AI大模型平台都翻了车
浏览次数:【633】  发布日期:2024-7-17 19:51:01    文章分类:财经资讯   
专题:大模型】 【9.11】 【9.9】 【AI大模型
 

  红星资本局7月17日消息,今日,AI大模型在数学上的翻车话题引发不小关注。

  一道“9.11和9.9哪个大”的简单数学题,竟困住了海内外一众AI大模型平台。

数学偏科

8个大模型全答错

  9.11和9.9哪个更大?据第壹财经报道,就这一问题,12个大模型中阿里通义千问、百度文心一言、Minimax和腾讯元宝答对,但ChatGPT-4o、字节豆包、月之暗面kimi、智谱清言、零一万物万知、阶跃星辰跃问、百川智能百小应、商汤商量都答错了,错法各有不同。

  现今全球公认第壹梯队的大模型ChatGPT,在被问及“9.11和9.9哪个大”时回复称,小数点后面的数字“11大于9”,因此9.11大。追问ChatGPT有没有其它比较方法后,它将小数转化成分数比较,得出 “11/100比90/100小”,这一步是正确的,但它接着下结论称“因此9.11比9.9大”。 image.png

  再看国内的大模型,例如询问月之暗面旗下kimi,它在比较小数部分时认为,9.11的第壹位小数是1,而9.9的第壹位小数是0,错误地给出了小数,得出结果9.11更大。当疑问并提出常识后,kimi转而开始表示自己回答有误,并给出了正确的比较方法。

  询问字节豆包,它不仅给出了答案,还举了生活中的案例方便理解,单看似有凭有据实则瞎说。豆包举例认为,假设有两笔钱,“9.11元比9.9元多0.21元”,并且丈量长度时“9.11米要比9.9米长”。

  商汤商量大模型首先给出了错误答案,当追问具体是怎样比较的后,它在推演进程中成功得出小数0.11小于0.9,但话锋一转称“所以9.11大于9.9”。当指出了这个前后逻辑问题,商量随后承认“解释有误”。

  值得注意的是,就在上月,AI大模型也因为数学翻车话题火上了热搜。

  6月19日,上海 人工智能 实验室发布首个AI高考全卷评测结果,阿里通义千问大模型Qwen2-72B位列第壹,在语数外三科420分的满分中获得303分,OpenAI的GPT-4o和上海 人工智能 实验室的书生·浦语2.0文曲星(InternLM2-20B-WQX)排名二三位。但引发关注的是,从结果来看,大模型的语文、英语考试水平普遍不错,但数学都不及格。

业内人士:

一段时期内不会得到明显改善

  此前,哈尔滨工业大学和华为的研究团队发表的综述论文认为,模型发生幻觉的三大来源:数据源、训练过程和推理。大模型可能会过度依赖训练数据中的一些模式,如位置接近性、共现统计数据和相关文档计数,从而造成幻觉。另外,大模型还可能会出现长尾知识回忆不足、难以应对复杂推理的情景。

  针对大模型答数学题普遍“吃瘪”的问题,国内某头部大模型责任人就曾表示,大模型的指令遵循或说推理能力通常是把一个指令背后的意思拆解出来,但数学题既包含规则性,又包含对各种思维的考察,解题逻辑和正经常使用大模型时的推理逻辑不一定完全一致。

  同时该责任人还提到,从更广泛的大模型应用角度来审视,AI能不能精准遵循指令是近一段时期内比较重要的事情,真实的商业价值也比较大可能来自于此,而解数学题对当前的AI来说还是一件比较“炫技”的事情。

  另有业内人士向南方都市报表示,目前来看大模型的数理能力相对较差的情景在中外都是同样的,“打个比方可以这样讲,大模型就是偏科,文科强理科弱,这个情况在一段时期内也不会得到明显的改善”。

手机扫码浏览该文章
 ● 相关资讯推荐
2024-9-12【交个朋友】未来商业早参 - 交个朋友回应假洋牌月饼;京东9.9包邮用户一年增长超3倍
2024-9-6【何明科】百度集团资深副总裁何明科 - AI大模型为医疗健康行业带来了哪些新可能?- REAL大会
 ● 相关资讯专题
交个朋友】  【何明科】  【医疗健康】  【REAL】 
  • 网络建设业务咨询

   TEl:13626712526