最准一肖一码100%中奖,大语言模型闹笑话：9.9 和 9.11 哪个更大？ChatGPT 竟答错，草莓或能让它更智能

郭沫若 07-23 23 抢沙发

默认

摘要： 最准一肖一码100%中奖,大语言模型闹笑话：9.9 和 9.11 哪个更大？ChatGPT 竟答错，草莓或能让它更智能改进人工智能模型的推理能力是释放模型能力的关键，这些能力往大了...

出品 | 搜狐科技

作者：王一鸣

最近几天，网上在讨论一个有关大语言模型的数学问题：9.9 和 9.11 哪个数字更大？很多大模型都会说 9.11 更大，理由很搞笑：因为 11 比 9 大。这大概是因为语言模型硬件（理解句子的基本单位）把“9”、“小数点”和“11”理解为三个部分系统总结新澳彩历史开奖记录大全查询，而好像并没有把它们当做一个整体来理解。

的详细信息从未被披露或报道过，内部严格保密。

据知情人士和内部文件透露，该公司正在研发一种新的人工智能模型快来看澳门天天彩资料免费正版资料大全，代号为，是Q*的前身。

一份内部文件副本显示，该团队正在开发草莓。这份无法确定日期的文件详细说明了草莓将如何用于研究的计划。

草莓计划使AI不仅能够生成查询的答案，还能执行远程任务（LHF）、提前规划、自主浏览互联网（CUA技术）并提高可信度，从而进行所谓的“深度研究”。

当被问及时，该发言人表示：“我们希望我们的AI模型能够像我们人类一样看待和理解世界。对AI能力的持续研究是业界的普遍做法，大家也普遍认为，随着时间的推移，这些智能系统的推理能力会不断提高。”

不过，其中并未提及“草莓”项目。

萨姆·奥特曼今年表示：“人工智能最重要的领域将围绕推理能力。”推理能力可以拓展人工智能探索科学领域的能力，让AGI成为现实。

此举引起马斯克的强烈关注：

“我们已经知道人工智能灾难可能是一场回形针洪水，现在看起来它将会是一片草莓地。（鼓声）”

(*注：尼克·博斯特罗姆曾经提出过一个著名的思想实验：要求AI生产出最多数量的回形针。AI最后决定：“杀死人类，把人类作为额外的资源，把你们都装进回形针里。”因为AI对人类的价值没有基本的人类理解。)

推理能力强

据路透社报道，草莓计划（原名 Q*）在内部被视为一项突破。Q* 演示能够解答当前商业模式无法解答的科学和数学问题。

内部测试的AI在MATH数据集上的得分超过了90％，这在基准测试中处于顶级水平，但目前尚不清楚这是否是草莓计划。

据彭博社报道，在一次内部全体会议上，有演示声称该项目的推理能力已接近人类水平。该发言人也证实了这次会议，但拒绝透露细节。

研究人员表示，推理能力是人工智能达到甚至超越人类智能水平的关键。

这样的AI就像受过高等教育的人，不需要借助任何工具就能解决基本问题，下一阶段将迎来“AI实体”和“创新者”，他们能够自主执行任务，具有设计新技术的能力，最终形成完全自主的复杂人工智能系统，这些阶段勾勒出完整的（AGI）通用人工智能路线图。

人工智能研究人员认为，这种能力是目前的人工智能模型所不具备的。

虽然大型语言模型可以非常快速地总结文本和书面文字，但有时也会出现一些对人们来说非常简单和直观的常识性问题，例如识别逻辑错误和“幻觉”问题。

人工智能中的推理涉及模型的形成，这些模型使人工智能能够提前规划并反映物理世界的工作方式，从而让其能够可靠地解决具有挑战性的多步骤问题。

提升人工智能模型的推理能力是释放模型能力的关键，大到可以替代人类进行重大科学研究，小到可以用来编写代码和软件。

谷歌、Meta 和微软等公司以及许多致力于人工智能的学术实验室正在尝试不同的技术来增强人工智能模型的推理能力。然而，研究人员仍不确定大型语言模型是否能够融入创意和长期规划。这令人怀疑。

现代人工智能先驱之一Yann LeCun表示，大型语言模型无法像人类一样进行推理。

希望该项目能够显著提高人工智能模型的推理能力。涉及专门的计算处理方法，可以在大型数据集上预先训练人工智能模型。

一种方法是进行后期训练，即在对大量通用数据进行“训练”后，以特定方式调整基础模型以“磨练”其性能。

“微调”和带人工反馈的强化学习 (RLHF) 都是训练后方法。RLHF 允许人类根据模型的反应向模型提供反馈，为快速工程提供正确和错误的示例。

知情人士称，类似于斯坦福大学在2022年开发的一种名为“自学推理机”（Self- ，简称“STaR”）的方法。

斯坦福大学教授 Noah D. 表示，STaR 可以让 AI 模型通过迭代创建自己的训练数据，从而“引导”自己达到更高的智能水平，理论上可以让语言模型超越人类水平的智能，成为创造者。

论文概述了自推理的原理，从少量样本提示开始作为模型生成自身推理的例子，最后通过微调产生正确答案的推理来进一步提高模型的能力。

研究人员逐层完成这个过程，每次都使用改进的模型来生成下一个训练集。这是一个协同过程，推理生成的改进会改善训练数据，进而进一步提高推理能力。

然而突出特点澳门精选免费资料大全家，这个循环无法解决训练集中的新问题，因为在回答错误问题时得不到直接有效的提示。

为此，他们提出了推理生成（）：通过对错误回答的问题提出正确答案来生成新的推理。这称为后向推理（）——正确的答案使模型很容易生成可用的推理。然后，这些推理被收集并集成为训练数据的一部分，从而提高整体准确性。

什么东西可以用来抱小狗？答案是B，篮子。答案一定是可以用来抱小狗的东西。篮子是用来装东西的。因此，答案是篮子。

上图显示了 STaR 的概览以及由 STaR 生成的推理。虚线表示 fine-() 外循环。问题和真实答案预计会出现在数据集中，并使用 STaR 生成推理。

他们在今年 5 月发布了 Quiet-STaR，做出了改进。

与STaR不同的是，Quiet-STaR直接在内部生成基本推理或想法，控制单个token推理并将其与预测相结合，以增强理解和响应结果，通过强化学习优化，模型产生更强的推理能力来预测下一个结果，无需特殊的调整和干预。

换句话说，Quiet-STaR 允许语言模型通过内部推理进行思考。

它解决了三个主要挑战：生成文本的高计算成本、指导 LLM 如何生成和使用内部想法、以及预测结果之外会产生什么。

Quiet-STaR采用新的采样算法来控制特殊token，模型可以在推理过程中自主学习并决定“开始思考”和“结束思考”。

上图总结了算法训练过程中单个想法的流程，所有想法都是基于文本问题（思考）并行生成的，模型生成下一步预测的想法方向（说话），帮助模型预测未来文本想法的方向，同时丢弃可能性较低的想法（学习）。

这是一个多重预测训练，模型利用当前的推理，产生多个可能的预测，进而生成更加合理可靠的推理结果。

上图 x 轴表示训练步数，y 轴表示零样本准确率（直接）最准一肖一码100%中奖,大语言模型闹笑话：9.9 和 9.11 哪个更大？ChatGPT 竟答错，草莓或能让它更智能，不同颜色的线表示 Quiet-STaR 的使用程度。可以直观看到 GSM8K 的准确率和初始准确率分别为 5.9% 和 36.3%。随着 Quiet-STaR 使用率的提高，准确率也随之提高，分别达到最高的 10.9% 和 47.2%。

他说：“我既兴奋又害怕……如果事情继续朝这个方向发展，作为人类，我们就需要考虑一些严肃的问题了。”

标签： OpenAI全新模型草莓浮出水面：推理能力已接近人类可让ChatGPT像人一样思考