o1研发团队初次集体访谈：教AI数r用了一年半

发布日期：2024-09-25 07:10 点击次数：144

笑死，底本o1也像东谈主类雷同可爱赶ddl（手动狗头）。

这是在o1团队的“大型碰头会”上，OpenAI独创成员Wojciech Zaremba揭开的o1“黑历史”。

包括Zaremba在内的18名团队成员，在首席商榷官Bob McGrew的提醒之下围坐一团。

o1中枢孝顺者Hyung Won Chung、Noam Brown等弱点东谈主物，也齐在此列。

跟着成员们的奋勇发言，o1的发展历程也迟滞被揭开——受AlphaGo和早期GPT模子的启发，料到了将两张背后的范式招引。

自后，团队覆按出了第一个不错生成连贯想维链的模子，标识着商榷宗旨运转迟滞把稳和聚焦……

在充满败坏感的敌视当中，世东谈主还共享了联系o1研发的许多趣事：

在OpenAI里面，也可爱用“数r”来测试大模子技艺

为了无间“数r”的问题，OpenAI摧毁了一年半

技巧东谈主员会把代码报错信息平直丢给o1去debug

o1也曾说过，人命的意旨是“42”，还试图用代数来界说“love”

同期在商榷经过中他们还发现，o1不仅比东谈主类更善于发现新的CoT推理要道，而且还清醒出了自我月旦技艺。

有网友赞叹说，这的确是一个出色的团队，相配可爱听他们的发言，而且模子的推理技艺也如实比过去强。

量子位整理了此次访谈的实录，底下就沿路来看~

o1是什么？推理又是啥？

Bob McGrew：我是OpenAI商榷团队的厚爱东谈主，咱们刚刚发布了o1和o1-mini模子。

对此咱们感到相配慷慨，今天咱们的通盘团队集中在此，来先容这两个模子。

★什么是o1？

Bob McGrew：是以，（第一个问题），到底什么是o1？

Hyung Won Chung：咱们开启了新的模子系列，而且起了一个新的名字叫o1。

这是为了强调，与GPT-4o等之前的模子比拟，o1有很大的不同，稍后会有东谈主详实讲授。

o1是一个推理形状，是以它在回应问题之前想考的会更多。

咱们发布了两个模子——（满血）o1的o1-preview，以及更小、更快的o1-mini，它和（满血）o1采纳的是调换的覆按框架。

咱们但愿全球可爱咱们的新定名形貌。

★推理又是什么？

Bob McGrew：那么推理又是什么趣味？

Giambattista Parascandolo：对于浅显问题来说，咱们但愿发问之后坐窝就能得回谜底。

比如你问意大利的齐门在哪，你毋庸想考许多也知谈谜底是罗马。

但如果你想知谈一个复杂问题的谜底，或者写出一份好的生意打算，或者写一部演义，你可能就要想考一段时间了，而且你想考的越多，临了得回适度也就越好。

而推理便是把想考时间化为更好的后果的技艺。

研发经过的那些事

★你们在o1上责任多长时间了？

Bob McGrew：你们在o1上责任多长时间了？

Jakub Pachocki：在OpenAI早期，咱们深受AlphaGo的获利的启发，看到了深度强化学习的后劲，因此咱们对其进行了潜入商榷，并看到了数据和机器东谈主技巧的大鸿沟推广。

咱们也运转想考如何技艺在通用鸿沟进行强化学习，从而完了相配巨大的东谈主工智能。

然后咱们看到了GPT范式中推广和监督学习带来的惊东谈主后果，从那时起，咱们就一直在想考如何将这两种不同的范式合二为一。

Mark Chen：样式运转的着及时间很难细则，但依然与Yaku和Shimon进行了早期探索，与Lukash、Ilya进行了早期探索。

一个紧要的时刻是Jerry的加入，他激动了这个大型样式标进展。

★商榷经过中的“Aha moment”

Bob McGrew：我认为在商榷经过中最精彩的便是哪些“Aha moment”，你们的责任当中有哪些高光时刻呢？

Jerry Tworek：咱们覆按了 GPT-2、GPT-3 和 GPT-4，每一次齐成为了媒体上的热门。

但第一次有这种嗅觉是当模子出来的时刻，总计东谈主齐赞叹很棒。

对于我而言，这么的时刻是当咱们参加了更多狡计资源，并第一次生成了连贯的想维链时。

那时咱们心想，这和过去的模子看起来确切很不雷同。

Trapit Bansal：当咱们筹议覆按一个推理模子时，我立即料到的一件事是，用东谈主类的想维经过进行覆按。

但我发现，使用RL覆按模子来生成己的想维链，适度不错作念得比东谈主类写的想维链更好。

在我看来这便是一个“Aha moment”，它告诉咱们不错通过这种覆按形貌，让推广模子的推理技艺得回推广。

Hunter Lightman：咱们花了很长的时间，一直尝试让模子更好地无间数学问题。

为此咱们付出了许多悉力，咱们想出了许多不同的递次，但有一件事让我一直很报怨，

每次我读到这些模子的输出时，发现模子似乎持久不会质疑我方那儿出了问题，什么时候犯了造作。

但当咱们覆按早期的o1模子并与之对话时，发现它在数学测试中得分更高了。

通过不雅察它的推理形貌，咱们发现它运转质疑我方，并进行了相配趣味趣味的反想。

那一刻我嗅觉哇，咱们发现了一些不同的东西。

★嗅觉模子像东谈主照旧像机器？

Bob McGrew：你们在看模子的想考经落伍，以为他们是更像真东谈主照旧更像机器东谈主？

Liam Fedus：这更像是一种“精神体验”。

你不错看到模子也会犯许多东谈主类时常犯的造作，又能看到它对一些知识提议质疑。

很奇怪，模子会带有东谈主类的行径。

Wojciech Zaremba：在模子被设定了ddl的情况下，往往会在快due的时候马上得出论断。

好像大模子也知谈我方必须坐窝给出谜底。

Karl Cobbe：我年青的时候花了许多时间参加数学竞赛，而我进入东谈主工智能鸿沟的原因，便是试图完了这个经过的自动化。

是以对我来说，这是一个相配紧要的鼎新点，因为我看到这个模子试验上简略投降我无间这些问题时使用的要道

天然这不是统统调换的想路，但相配相配可靠。

Wojciech Zaremba：不错敬佩，这些模子正在成为着实激动工程和科学发展的要素。

如果它们似乎能无间即使群众也难以无间的问题，炒股票那么将简略激动科学杰出。

★研发经过中的贫苦

Bob McGrew：咱们谈了许多令东谈主振奋的时刻，那么在责任经过中又遭受了什么隔断？

Jerry Tworek：覆按大型模子从根底上来说便是一件相配相配贫苦的事情。

有成千上万的事情可能出错，而且在每个鸿沟齐有事情如实出错了。

是以简直这里的每个东谈主齐像你们知谈的雷同，在覆按这些事情上付出了许多心血和汗水，并想出了如何让模子不绝学习和杰出的递次。

试验上，奏效的谈路相配褊狭，而失败的形貌却有许多。

Wojciech Zaremba：就像辐射火箭雷同，如果你偏离了一个角度，你就无法到达宗旨地，而这便是咱们的责任。

Ilge Akkaya：这个模子相配好，鄙俗比东谈主类好几倍，能达到博士的水平。

关联词这无意是一个挑战，因为咱们必须时常去考证模子莫得偏离轨谈。

但咱们依然足够了总计行业级的评估，咱们不知谈下一步该商榷什么。

Mark Chen：这亦然一种树立感，就像每次遭受难题雷同。

这就像这个团队要克服的另一个隔断，我确切很雀跃咱们克服了总计这些小隔断。

OpenAI里面这么用o1

★如何测试模子推崇

Bob McGrew：你们测试模子的递次有哪些，有莫得什么可爱的问题，并发现模子在这些问题上变得越来越好？

Shengjia Zhao：Strawberry里有几个r？

Wojciech Zaremba：不论是什么原因，ChatGPT无法可靠地无间这些问题。

咱们花了一年半的时间，当今咱们不错狡计出strawberry中的“r”的数目。

Hunter Lightman：我有一个习气，我想其他东谈主也有。

每当上推特时，齐会看到一些帖子说大模子无法无间这类问题。

我就把它复制粘贴进去，然后发现咱们的模子不错作念到。

★里面o1使用递次

Bob McGrew：为了让东谈主们了解他们不错使用这个模子作念什么，我很想听听你们使用o1的一些递次。

Hyung Won Chung：我使用o1的形貌主如果用来写代码。

我的许多责任齐是对于代码的，我越来越爱护问题界说，并使用TDD（测试驱动设立）。

因此，我不再编写完了功能的代码，而是专注于编写单位测试。

因为o1不错完了东西，是以我不错专注于紧要的、需要无间的高等问题，这确切是一种滚动我耀认识的紧要形貌。

另一个鸿沟是debug，当今当我收到一些造作音书时，我只需传递给o1，无意它会立即无间。

即使莫得，它至少会给出一些更好的问题，提供一些更好地想考这个问题的递次。

是以对我来说，这是一个相配紧要的责任变化，我但愿这也能匡助其他东谈主。

★o1-mini的出身经过

Bob McGrew：o1-mini的故事是怎么的？它是如何出身的？

Hongyu Ren：咱们想把o1系列带给更多东谈主，它有更低的老本，是以作念了o1 mini。它是o1框架的最小演示，是“推理群众”。它不一定能知谈你可爱的名东谈主的诞辰，关联词它能灵验地推理，而且很智能。

试验上它确切很机灵，比咱们之前最佳的模子齐要机灵许多，简直与o1格外，关联词老本和时延比它低许多。

不外也如实有局限性，可能不知谈许多外部天下知识。这与技巧本人无关，咱们试图让它达到和此前最佳模子最小版块差未几的水平，而且仍旧在悉力进一步翻新它。

用户尝试了o1 mini会很振奋，因为它推理和想考的速率确切很快。

★是什么引发你作念这些商榷？

Łukasz Kaiser：我只是以为在这个天下上，有一些不错作念推理、有智能的东西，比遐想中小许多。它们不错以不同形貌作念到这少许，这就相配迷东谈主了。

Giambattista Parascandolo：我以为这是向模子范式休养的第一步。过去花很长时间技艺无间的问题，当今作念到了分钟级，这只是漫长谈路的第一步。咱们但愿能在几个月或几年后，迈出第二步。

Wojciech Zaremba：我以为这很挑升旨，咱们不错对天下产生一些本质性的积极影响。

而且这很趣味趣味，我可爱对着电脑“话语”，可爱在集群上运转一项责任，也相配可爱合营。

Jerry Tworek：我认为科技不错改善东谈主类生涯，我可爱咱们的模子能为东谈主责任，匡助咱们无间普通问题，赋予它推理技艺让它作念事。

Liam Fedus：我认为这一范式无间了一些模子无法无间的问题，是以不单是是回应变好少许，而是通过方案、通过造作校正，它解锁了全新技艺，辞天下上创造新知识的技艺，比如科学发现，我认为这是最令东谈主振奋的部分。

短时间内，它的自身进化会越来越快，这确切很棒。

Mark Chen：咱们团队中一些成员特等学等方面的布景，这驱动咱们我方想去创造一个最佳的系统。

Hyung Won Chung：我认为推理比东谈主们遐想中的还要巨大。当东谈主类想要完成某项任务时，最基本的递次便是推理，你会遭受贫苦，你必须要找到无间递次。

我以为AI商榷员的责任好像是要找到一种递次来参加更多的狡计。硬件方面的商榷者在这方面作念的很好，很长一段时间硬件老本齐在指数级下跌。

需要的狡计量越来越多，就好像肩膀上的分量越来越重。这个新形状找到了一种递次，来帮咱们卸下一些分量。

★在这项商榷中，你们还不雅察到什么吗？

Jason Wei：咱们发现一个趣味趣味的欢乐是，每个模子齐有我方的“怪癖”。

覆按的每个模子在每个任务上的推崇齐不统统调换。是以模子可能有些任务推崇得更好，有些推崇得更差。每个模子齐有它我方的个性和优点。

上一篇：重大特材: 对于”重大转债”展望得志转股价钱修正条件的领导性公告

下一篇：2024年9月23日阳泉农产物批发阛阓有限公司价钱行情

股票杠杆

o1研发团队初次集体访谈：教AI数r用了一年半