AI 推贤慧商大“翻车”！苹果最新论文：LLM仅仅复杂的模式匹配，而不是简直的逻辑推理

发布日期：2024-10-17 13:51 点击次数：192

苹果的相关员 Mehrdad Farajtabar 等东说念主最近发表了一篇论文，对大型说话模子 (LLM) 的推贤慧商提议了强横的质疑，他觉得，LLM 的“推理” 智商，其实仅仅复杂的模式匹配，摧枯拉朽！

论文作家相关了包括 Llama、Phi、Gemma、Mistral 等开源模子，以及 GPT-4o 和 o1 系列等闭源模子。需要指出的是，在 OpenAI 发布 GSM8K 的三年里，模子的性能有了显赫晋升，从 GPT-3 (175B) 的 35% 晋升到了面前 30 亿参数模子的 85% 以上，更大的模子以至向上了 95%。但 Farajtabar 觉得，这并不可解说 LLM 的推贤慧商真是提高了

为了测试 LLM 的数学推贤慧商的极限，Farajtabar 和他的团队建树了一个名为 GSM-Symbolic 的新器用，它不错根据 GSM8K 测试集创建记号模板，从而粗略生成大王人实例并联想可控履行。他们生成了 50 个特有的 GSM-Symbolic 勾通，这些勾通实质上就像 GSM8K 示例，但具有不同的值和称呼

GSM8K 是 “Grade School Math 8K” 的缩写，是一个用来评估数学问题处分智商的数据集。这个数据集主要包含小学级别的数学题目（约莫 8，000 说念题目），频繁用于考验和测试机器学习模子，特别是在当然说话处理限制的模子若那边理和处分数学问题

履行效用，令东说念主大跌眼镜：

1.刻下 GSM8K 的准确率并不可靠！不同模子在 GSM8K 上的进展互异庞大，举例 Llama 8B 的得分在 70% 到 80% 之间，Phi-3 的得分在 75% 到 90% 之间，等等。关于大多数模子，在 GSM-Symbolic 上的平均性能低于在 GSM8K 上的平均性能

2.所谓的 LLM 推贤慧商摧枯拉朽！ LLM 对专盛名词和数字的更动相当明锐，这诠释它们并莫得简直长入数学办法。就像一个小学生，淌若咱们仅仅更动了数学测试题中的东说念主名，他的分数就会下降 10% 吗？彰着不会

3.跟着问题难度的加多 (M1 → Symbolic → P1 → P2)。引入了 GSM-Symbolic 的三个新变体来相关模子算作：删除一个分句（GSM-M1）、加多一个分句（GSM-P1）或加多两个分句（GSM-P2），模子的性能下降，方差高潮，这意味着模子的可靠性越来越差

4.引入 GSM-NoOp 后，模子性能断崖式下落！ GSM-NoOp 是在 GSM-Symbolic 的基础上，添加了一个看似有关但不影响举座推理的子句。总共模子，配资门户包括 o1 模子，王人进展出了显赫的性能下降。这诠释，即使是刚劲的 o1 模子，也无法简直长入数学问题的逻辑结构

5.即使是 OpenAI 的 o1 系列模子，也无法全王人幸免这些问题。 o1-preview 诚然有所雠校，但仍然会犯一些初级诞妄，举例无法长入“面前”和“客岁”的分裂，这可能是因为考验数据中包含了“通货彭胀”的模式，模子仅仅轻便地师法了这种模式

Farajtabar 觉得，

LLM 的这些进展，更好地解释是复杂的模式匹配，而不是简直的逻辑推理。即使咱们加多数据、参数和筹备量，或者使用更好的考验数据，也仅仅得回了“更好的模式匹配器”，而不是“更好的推理器”

Denny Zhou (谷歌 DeepMind 的 LLM 推理团队追究东说念主) 也参与了筹商，他指出：

“这项责任的一个要害发现是：向 GSM8k 问题添加不有关的高下文会导致 LLM 无法处分这些问题，正如咱们在 ICML 2023 年的论文‘大型说话模子很容易被不有关的高下文漫衍稳健力’ 中所解说的那样。教唆构建的互异在我看来仍然很有趣。”

Yuandong Tian (Meta AI 的相关科学家总监) 也抒发了他的不雅点：

“中枢问题是：1️⃣凭借咱们的限制学问，咱们不错构建权重，使 LLM 在特定问题中进行细致的推理；2️⃣但是，梯度下降可能无法学习到这么的权重；3️⃣咱们仍然依赖梯度下降，因为它为好多限制带来了魅力——淌若它在其他限制变得愚蠢，咱们也窝囊为力。”

论断

总的来说，这篇论文相关效用莫得在包括 Llama、Phi、Gemma 和 Mistral 等开源模子，以及最近的 OpenAI GPT-4o 和 o1 系列等起原闭源模子在内的说话模子中，找到任何景色推理的笔据。他们的算作不错用复杂的模式匹配来更好地解释——如斯脆弱，以至于更更称呼王人会使效用调动约 10%！咱们不错扩展数据、参数和筹备量——或者为 Phi-4、Llama-4、GPT-5 使用更好的考验数据。但这可能只会产生“更好的模式匹配器”，而不是“更好的推理器”

本文作家：opencat，著述来源：AI寒武纪，原文标题：《AI 推贤慧商大“翻车”！苹果最新论文：LLM仅仅复杂的模式匹配，而不是简直的逻辑推理》。

风险教唆及免责条件市集有风险，投资需严慎。本文不组成个东说念主投资建议，也未推敲到个别用户罕见的投资狡计、财务状态或需要。用户应试虑本文中的任何意见、不雅点或论断是否恰当其特定状态。据此投资，职守自诩。

上一篇：江苏金租: 江苏金租：对于实施“苏租转债”赎回暨摘牌的第十次辅导性公告

下一篇：浙商证券可转债来往非常波动累计涨幅偏离值达30%

股票杠杆

AI 推贤慧商大“翻车”！苹果最新论文：LLM仅仅复杂的模式匹配，而不是简直的逻辑推理