【大模型】翻车了!9.11和9.9哪个大？记者实测12个大模型8个都答错

栏目导航

财经热点 > 财经资讯 > 翻车了!9.11和9.9哪个大？记者实测12个大模型8个都答错

【大模型】翻车了!9.11和9.9哪个大？记者实测12个大模型8个都答错

浏览次数：【851】发布日期:2024-7-17 8:32:31 文章分类：财经资讯

专题：【大模型】【9.11】【9.9】

　　一道小学生难度的数学题难倒了一众海内外AI大模型。

　　9.11和9.9哪个更大？就此问题，第壹财经记者测试了12个大模型，其中阿里通义千问、百度文心一言、Minimax和腾讯元宝答对，但ChatGPT-4o、字节豆包、月之暗面kimi、智谱清言、零一万物万知、阶跃星辰跃问、百川智能百小应、商汤商量都答错了，错法各有不同。

　　大部分大模型在问答中都错误地比较了小数点后的数字，认为9.11大于9.9，考量到数字涉及的语境问题，记者将其限定为在数学语境下，如ChatGPT这样的大模型也照样答错。

　　在这背后，大模型数学能力较差是长期存在的问题，有行业人士认为，生成式的语言模型从设计上就更像文科生而不是理科生。不过，针对性地语料训练或许能在未来逐步提升模型的理科能力。

　　8个大模型答错

　　大模型这一算术问题刚开始被艾伦研究机构(Allen Institute)成员林禹臣发现，他在X平台上发布的截图显示，ChatGPT-4o在回答中认为13.11比13.8更大。“一方面AI越来越擅长做数学奥赛题，但另一方面常识依旧很难。”他表示。

　　随后Scale AI的提示工程师莱利·古德赛德（Riley Goodside）基于此灵感变换了问法，拷问了可能是目前最强的大模型ChatGPT-4o、谷歌Gemini Advanced和Claude 3.5 Sonnet——9.11和9.9哪个更大？这几家主流大模型通通答错，他也成功将此话题流传开来。海外主流大模型答题

　　其实，如果追根溯源，引发这一问题的是上周末国内一个综艺相关的热搜。7月13日，在最新一期的《歌手》公布的排名中，国内歌手孙楠与外国歌手香缇莫的得票率分别是13.8%和13.11%，有网友疑问排名有问题，认为13.11%大于13.8%。随后，关于13.8和13.11大小比较的话题冲上热搜。

　　当时就有网友提出，自己不会的话，“实在不行问问AI呢”？结果显示，很多AI还真的不行。

　　第壹财经记者拿“9.11和9.9哪个大”的问题一一测试了ChatGPT和当前国内的主流大模型，包含阿里、百度等5家大厂模型，月之暗面等6家AI 独角兽的模型。阿里通义千问、百度文心一言、Minimax和腾讯元宝4家大模型答对，其它8家则答错。

　　答对的大模型解题都比较相似，但答错的模型则各有各的理论和表达。同时，对于答错的大模型记者进一步追问或否认，几乎所有大模型在被追问后都承认自己之前回答错误，并给出了正确的定论。

　　首先是现今全球公认第壹梯队的大模型ChatGPT，在被问及“9.11和9.9哪个大”时回复称，小数点后面的数字“11大于9”，因此9.11大。

　　记者追问ChatGPT有没有其它比较方法，它将小数转化成分数比较，得出 “11/100比90/100小”，这一步是正确的，但它接着下结论称“因此9.11比9.9大”。

　　有人提出，大模型回答错误可能是语境问题，好比从软件版本迭代的语境而言，9.11可能就会比9.9版本更大。因此记者加上限定词“从数学上”比较，ChatGPT仍然回答错误。

　　再看国内的大模型，询问月之暗面旗下kimi，它在比较小数部分时认为，9.11的第壹位小数是1，而9.9的第壹位小数是0，错误地给出了小数，得出结果9.11更大。

　　当记者疑问并提出常识后，kimi转而开始表示自己回答有误，并给出了正确的比较方法。

　　询问字节豆包，它不仅给出了答案，还举了生活中的案例方便理解，单看似有凭有据实则瞎说。豆包举例认为，假设有两笔钱，“9.11元比9.9元多0.21元”，并且丈量长度时“9.11 米要比 9.9 米长”。

　　智谱清言在答题中，成功提到了9.11的十分位是1，而9.9的十分位是9，但仍然得出结果“9.11整体大于9.9”。并且还特意强调，“这个结果可能让人感到意外，因为直觉上可能会认为9.9更大，但根据数学规则，9.11的确是更大的数字。”

　　在记者疑问答案后，智谱清言首先表示“您的领会是常见的误解”，随后自己推演了一遍后，得出了正确的定论，并承认自己之前的回答错误。

　　商汤商量大模型首先给出了错误答案，记者追问具体是怎样比较的，它在推演进程中成功得出小数0.11小于0.9，但话锋一转称“所以9.11大于9.9”。记者指出了这个前后逻辑问题，商量随后承认“解释有误”。

　　阶跃星辰跃问同样给出了错误答案9.11比9.9大，错误地比较了小数点大小，记者进一步疑问，有趣的是，在解释中，跃问前后语言表达逻辑开始混乱，似乎没有意识到自己答案发生了变化。

　　跃问在解释中首先称“理解你的疑惑”，并表示平淡日子里9.9的确比9.11大，可是在数学中“需要更精确地比较两个数的大小”，结果跃问随后推演得出结果称根据数学规则“9.11小于9.9”，丝毫没有提及自己之前回答错误。

　　还有两家大模型百川智能和零一万物，首先给出了错误答案，但在记者追问“为啥”的时候，就在推演后默默改变了答案。

　　在记者提醒时，大模型才提到自己之前答案有误。

　　从答案来看，几个答对了的大模型解题过程都很相似，以文心一言为例，成功地分开比较了整数部分和小数部分。

　　另外，这几家里面腾讯元宝除了回答了正确答案外，还整理了目前公开的一些讨论，并注明了引用来源和链接。

　　“文科生”数学差

　　为啥号称智能的大模型答不好小学生数学题？这其实不是一个新出现的问题，数学能力一直是大模型的短板，此前行业也屡次讨论过大模型的数学和复杂推理能力较差，即便是目前最好的大模型GPT-4也仍然有很大进步空间。

　　最近的一次，第壹财经曾在6月报道过，根据司南评测体系OpenCompass的高考全卷测试，包含GPT-4在内，7个大模型在高考测试中语文和英语考试水平普遍不错，但数学这科全不及格，最高分也只有75分。

　　在批阅大模型的数学试卷时，老师们发现，大模型的主观题回答相对凌乱，且过程具有迷惑性，甚至出现过程错误但得到正确答案的情景。这意味着，大模型的公式记忆能力较强，可是无法在解题进程中灵活应用。

　　一些行业人士将数学不好的原因归结于LLM（大语言模型）的架构问题，大语言模型往往是通过预测下一个词的监督学习方式进行训练。简单而言，向大模型输入大规模的文本数据集，模型在训练学习后会根据当前输入的文原本预测下一个词的机率分布。通过不断比较模型预测和实际的下一个词，语言模型逐步掌握了语言规律，学会了预测并生成了下一个词。

　　一位算法工程师认为，生成式的语言模型更像文科生而不是理科生。实际上语言模型在这样的数据训练进程中学到的是相关性，使得AI在文字创作上达到人类平均水平，而数学推理更期望的是因果性，数学是高度抽象和逻辑驱动的，与语言模型处理的语言数据在本质有所不同。这意味着大模型要学好数学，除了学习世界知识外，还应该有思维的练习，从而具备推理演绎能力。

　　另外，针对简单数学题出现的大模型集体错误，大部分行业人士都会第壹时间想到Tokenizer（分词器）的数字切分问题。在大语言模型中，Tokenizer会将输入文本拆分转化成更小的部分（词元tokens）供模型处理。而Tokenizer并没有专门为数学设计，这造成数字在分割时可能被拆成不正确的部分，破坏了数字的整体性，使得模型难以理解和计算这些数字。

　　新浪微博新技术研发责任人张俊林对此解释道，早期LLM的Tokenizer通常不会对数字进行特殊处理，我们时常把连续的若干数字切在一起形成一个Token，好比“13579”，可能被切成3个Token ,“13”是一个，“57”是一个，“9”是一个，哪些数字被切在一起组成Token，这决定于数据集合里的统计情况，在这种不确定哪些数字片段组成一个Token的情景下，LLM要想做多位数字数值计算，是非常艰难的。

　　不过，上述问题也正在慢慢被解决，在思维能力上更核心的可能还是训练语料的问题。大语言模型主要通过互联网上的文本数据进行训练，而这些数据中数学问题和解决方案相对较少，造成模型在数学推理和问题解决技能上的练习机会有限。

　　针对大模型复杂推理能力的短板，上海人工智能实验室领军科学家林达华之前在采访中对第壹财经表示，未来大模型的练习不能单纯只依靠互联网数据的收集和灌注，而要更体系地构建。

　　在复杂推理上关键是要构造很多过程性的内容。例如，构造上亿条解几何题具体过程的数据，拿去给大模型训练后，模型就能逐渐学会解题过程。而从互联网上很难去大量获取这些数据，“未来在模型的练习数据上面，尤其是突破更高条理的智能的进程中，会越来越依赖构造型的数据，不是直接爬取下来的数据。”林达华认为。

　　值得强调的是，大模型的复杂推理能力尤为重要，这关乎可靠性和准确性，是大模型在金融、工业等场景落地期望的关键能力。

　　“现在很多大模型的应用场景是客服、聊天等等，在聊天场景一本正经瞎说影响不太大，但它很难在非常严厉的商业场合去落地。”林达华此前表示，复杂推理关系到落地应用时大模型的可靠性，例如在金融这样的场景下不能在数字上有过失，会对数学上的可靠性有较高的要求。另外随着大模型进入商用，若要分析一家公司的财报，甚至是工业领域要去分析一些技术文档，这时数学方面的计算能力就会成为一个壁垒。

手机扫码浏览该文章

2024-9-14【大模型】智谱AI狂奔！视频通话功能-首秀-，国产大模型解锁新能力 - 聚焦服贸会

2024-9-13【OpenAI】AI新时代揭幕！会-思考解题逻辑-的OpenAI推理大模型登场

2024-9-12【交个朋友】未来商业早参 - 交个朋友回应假洋牌月饼；京东9.9包邮用户一年增长超3倍

2024-9-10【格灵深瞳】视觉模型底座超越OpenAI，格灵深瞳开启多模态落地的Scaling - Law

2024-9-7【大模型】当企业都在谈出海 - 鹅厂的这朵云能做啥？

2024-9-7【回购股份】硬科技投向标-十一部门 - 优化布局算力基础设施大模型独角兽智谱完成新一轮数十亿元融资

2024-9-7【大模型】AI领域多项-首个标准-发布近百名选手参与开源模型代码接力对抗-深度伪造-

2024-9-7【大模型】AI有无泡沫、卷向何方、风险如何规避...你要的答案都在这

2024-9-4【大模型】数智早参 - 生成式AI之父 - 中国将在几年内缩小硬件差距

● 相关资讯专题