小学生难度数学题竟难倒众多 AI 大模型，背后原因令人深思

戴望舒 07-17 155 抢沙发

默认

摘要： 小学生难度数学题竟难倒众多 AI 大模型，背后原因令人深思9.11和9.9哪个更大?8个大模型答错Sonnet——9.11和9.9哪个更大?随后，关于13.8和13.11大小比较的...

9.11 和 9.9 哪个更大？在这个问题上，第一财经测试了12款大模型，其中阿里通义千问、百度文心益言、腾讯元宝回答正确，但-4O、字节斗宝、月暗面基米、智普清衍、零一万事皆知、步跃星月文、百川智能百侠英、上塘咨询都答错了，错误的方法也不同。

大多数大型模型在问答中错误地比较小数点后的数字，认为 9.11 大于 9.9。

这背后，大型模型的数学能力差是一个长期存在的问题，一些业内人士认为，生成语言模型的设计更像是文科生而不是理科生。然而，有针对性的语料库训练或许能够在未来逐步提高模型的科学能力。

8 个大型模型回答错误

这

大型模型的算术问题最早是由艾伦研究所的成员林宇晨发现的，他在 X 平台上发布了一张截图，显示 -4o 在他的回答中认为 13.11 大于 13.8。“一方面，人工智能在做数学奥林匹克题方面越来越好，但另一方面，常识仍然很困难。他说。

然后 Scale AI 的提示工程师 Riley ·古德赛德（莱利）基于这个灵感改变了他的方法，并折磨了目前可能最强大的大型模型——4o、谷歌和 3.5——哪个更大 9.11 还是 9.9？这些主流模特都答错了，他成功传播了这个话题。

海外主流大模型解答

其实如果追根溯源，造成这个问题的，是上周末中国一档综艺节目的热搜。7月13日，在最新一期《歌手》公布的排行榜中，国内歌手孙楠和外国歌手尚蒂莫的得票率分别为13.8%和13.11%，有网友质疑排名，认为13.11%大于13.8%。随后，比较13.8和13.11大小的话题冲上了热搜。

当时有网友提出，如果不知道，“我真的不能问AI”？

第一财经以“9.11和9.9哪个更大”的问题，测试了目前国内主流的大模型，包括阿里、百度等5大厂商的模型，以及月亮的黑暗面等6个AI独角兽的模型。阿里彤义千文、百度文心益言、腾讯元宝4大模答对，其他8人答错。

正确答案的大型模型的解相对相似，但错误答案的模型有自己的逻辑和表达式。同时，对于回答错误的大型模型，几乎所有人都承认自己回答错了，并在被质疑后给出了正确的答案。

第一个是目前世界公认的第一梯队的大模型，当被问及“9.11和9.9哪个更大”时，它回答说小数点后的数字“11大于9”，所以9.11更大。

当被问及是否有其他比较方法，将小数转换为分数比较并得出“11/100 小于 90/100”时，这是正确的，但它继续得出结论“因此 9.11 大于 9.9”。

有人提出，大模型的错误答案可能是上下文问题，例如，在软件版本迭代的上下文中，9.11 可能大于 9.9。因此，添加限定词“数学上”进行比较，但仍然回答错误。

看中国的大模型，问月亮阴暗面下的Kimi，它认为9.11的第一个小数点是1,9.9的第一个小数点是0。

当被问到常识时，Kimi反而开始说他回答错了，并给出了正确的比较方式。

问字节斗宝，它不仅给出了答案，还举了生活中的例子，便于理解，看似合理，有据可循，实则无稽之谈。例如，如果有两笔钱，在测量长度时，“9.11 元比 9.9 元多 0.21 元”，而“9.11 米比 9.9 米长”。

在回答问题时，芷青岩成功提到9.11的十分位数是1,9.9的十分位数是9，但还是得出了“9.11整体大于9.9”的结论。“并且还特意强调，”这个结果可能会让人感到意外，因为直觉上认为9.9更大，但根据数学规则，9.11确实是一个更大的数字。”

问完答案后，芸朴清妍先说了一句“你的理解是常见的误会”，然后自己推演出来，才想出了正确的答案，承认自己之前的答案是错误的。

商汤科技的大模型先是给出了错误的答案，问了怎么比较原理解析澳门一肖一码100%准确?，在演绎过程中成功得出小数点后0.11小于0.9的结论阐说管家婆一肖一码100%准，但对话变成了“所以9.11大于9.9”。有人指出了这个逻辑问题，讨论之后承认“解释是错误的”。

阶梯星闰题也给出了错误答案9.11大于9.9，错误地比较了小数点大小，进一步提问，有趣的是，在解释中，闰题前后的语言表达逻辑开始混乱，似乎没有意识到自己的答案已经变了。

岳文首先在解释中说“理解你的困惑”，并说9.9在日常生活中确实比9.11大，但在数学上，“有必要更准确地比较两个数字的大小”，结果月文随后推论并得出结论，根据数学规则，“9.11小于9.9”澳门天天彩澳门开奖资料，更不用说他之前的回答是错误的。

还有百川智和零一事物两大模型，先给出了错误的答案，但当他们问到“为什么”时，他们却在演绎后默默地改变了答案。

当被提醒时，大模型提到他之前有错误的答案。

从答案来看，几个正确答案的大模型的求解过程非常相似，以文心一言为例，将整数部分和小数部分分别进行了对比。

此外，这些公司的腾讯锭除了回答正确答案外，还梳理了一些目前公开的讨论，并指出了其中的来源和链接。

“文科生”数学成绩差

为什么所谓的智能大模型不能回答小学生的数学问题？这并不是一个新问题，数学能力一直是大模型的短板，之前业界已经多次讨论过，大模型的数学和复杂推理能力都很差，即使是最好的大模型GPT-4也有很大的改进空间。

近日，《第一财经》6月报道称，根据思南评价系统高考全量测试综合评述王中王493333WWW，包括GPT-4在内，7个大模型在高考中文、英文考试中普遍表现良好，但数学全部不及格，最高分仅为75分。

老师们在对大模型的数学试卷进行评分时发现，大模型的主观答案比较乱，过程混乱，甚至过程错了，但得到了正确的答案。这意味着大模型具有很强的记忆公式能力，但在解决问题的过程中无法灵活应用。

一些业内人士将糟糕的数学归因于LLM（大型语言模型）的架构，这些模型通常通过监督学习来预测下一个单词。简单来说，就是将一个大规模的文本数据集输入到一个大型模型中，并训练该模型根据当前输入的文本来预测下一个单词的概率分布。通过不断将模型的预测与实际的下一个单词进行比较，语言模型逐渐掌握了语言的规则，学会了预测和生成下一个单词。

根据一位算法工程师的说法，生成语言模型更像是文科学生，而不是理科学生。事实上，语言模型在这样的数据训练过程中学习的是相关性，这使得人工智能在文本创作上达到了人类的平均水平，而数学推理需要更多的因果关系，数学是高度抽象和逻辑驱动的，这与语言模型处理的语言数据有着根本的不同。这意味着系统探讨澳门特一肖一码2022精准，为了让大模型学好数学，除了学习世界知识外，还应该进行思维训练，从而具备推理和演绎能力。

此外，对于简单数学题中大模型的集体误差，业内大多数人会立即想到数分割问题（分字器）。在大型语言模型中，输入文本被拆分为较小的部分（标记），供模型处理。它不是专门为数学设计的，这导致数字在除法时可以分解成不合理的部分，从而破坏了数字的完整性，使模型难以理解和计算它们。

新浪微博新技术研发负责人张俊林解释道，早期LLM一般不会对数字进行特殊处理，往往会把多个连续的数字拼接在一起形成一个Token，比如“13579”，可以切成3个Token，“13”是1个，“57”是1个， “9”是一个，将数字切割在一起形成一个令牌，这取决于数据集中的统计数据。在这种不确定哪些数字片段构成令牌的情况下，LLM 很难进行多位数值计算。

不过，上述问题也在慢慢解决，思维能力的核心或许就是语料库的训练问题。大型语言模型主要基于互联网上的文本数据进行训练，这些数据中的数学问题和解决方案相对较少，导致模型在数学推理和解决问题能力方面的训练机会有限。

针对大模型复杂推理能力的不足，上海人工智能实验室主研人员林大华此前在接受第一财经采访时表示，未来大模型的训练不能单纯依靠互联网数据的采集和灌注，而应该更加系统地构建。

复杂推理的关键是构建大量的程序内容。例如，在解决几何问题的具体过程中构建了数亿条数据，并在大型模型上对其进行训练后，模型可以逐步学习解决问题的过程。然而，很难从互联网上获取大量这样的数据，“未来，在模型的训练数据中，特别是在突破更高层次智能的过程中，我们将越来越依赖结构数据，而不是直接抓取数据。林大华想道。

值得一提的是，大模型的复杂推理能力尤为重要，这与可靠性和准确性有关，是金融、工业等场景下实现大模型所需的关键能力。

“现在很多大模型都用在客服、聊天等领域，严肃废话在聊天场景中的影响不是太大，但是在非常严肃的商务场合很难落地。”林大华此前表示，复杂推理在落地时关系到大模型的可靠性，比如在金融等场景中，不能有数字误差小学生难度数学题竟难倒众多 AI 大模型，背后原因令人深思，对数学可靠性的要求也会更高。此外，随着大模型的商业化使用，如果想要分析一家公司的财务报告，甚至在工业领域，都需要分析一些技术文档，那么数学中的算力就会成为障碍。

标签：火车模型脱轨翻车视频翻车模型的制作