股票杠杆

杠杆炒股,股票融资!

o1研发团队初次集体访谈:教AI数r用了一年半

发布日期:2024-09-25 07:10    点击次数:135


笑死,底本o1也像东谈主类雷同可爱赶ddl(手动狗头)。

这是在o1团队的“大型碰头会”上,OpenAI独创成员Wojciech Zaremba揭开的o1“黑历史”。

包括Zaremba在内的18名团队成员,在首席商榷官Bob McGrew的提醒之下围坐一团。

o1中枢孝顺者Hyung Won Chung、Noam Brown等弱点东谈主物,也齐在此列。

跟着成员们的奋勇发言,o1的发展历程也迟滞被揭开——受AlphaGo和早期GPT模子的启发,料到了将两张背后的范式招引。

自后,团队覆按出了第一个不错生成连贯想维链的模子,标识着商榷宗旨运转迟滞把稳和聚焦……

在充满败坏感的敌视当中,世东谈主还共享了联系o1研发的许多趣事:

在OpenAI里面,也可爱用“数r”来测试大模子技艺

为了无间“数r”的问题,OpenAI摧毁了一年半

技巧东谈主员会把代码报错信息平直丢给o1去debug

o1也曾说过,人命的意旨是“42”,还试图用代数来界说“love”

同期在商榷经过中他们还发现,o1不仅比东谈主类更善于发现新的CoT推理要道,而且还清醒出了自我月旦技艺。

有网友赞叹说,这的确是一个出色的团队,相配可爱听他们的发言,而且模子的推理技艺也如实比过去强。

量子位整理了此次访谈的实录,底下就沿路来看~

o1是什么?推理又是啥?

Bob McGrew:我是OpenAI商榷团队的厚爱东谈主,咱们刚刚发布了o1和o1-mini模子。

对此咱们感到相配慷慨,今天咱们的通盘团队集中在此,来先容这两个模子。

★什么是o1?

Bob McGrew:是以,(第一个问题),到底什么是o1?

Hyung Won Chung:咱们开启了新的模子系列,而且起了一个新的名字叫o1。

这是为了强调,与GPT-4o等之前的模子比拟,o1有很大的不同,稍后会有东谈主详实讲授。

o1是一个推理形状,是以它在回应问题之前想考的会更多。

咱们发布了两个模子——(满血)o1的o1-preview,以及更小、更快的o1-mini,它和(满血)o1采纳的是调换的覆按框架。

咱们但愿全球可爱咱们的新定名形貌。

★推理又是什么?

Bob McGrew:那么推理又是什么趣味?

Giambattista Parascandolo:对于浅显问题来说,咱们但愿发问之后坐窝就能得回谜底。

比如你问意大利的齐门在哪,你毋庸想考许多也知谈谜底是罗马。

但如果你想知谈一个复杂问题的谜底,或者写出一份好的生意打算,或者写一部演义,你可能就要想考一段时间了,而且你想考的越多,临了得回适度也就越好。

而推理便是把想考时间化为更好的后果的技艺。

研发经过的那些事

★你们在o1上责任多长时间了?

Bob McGrew:你们在o1上责任多长时间了?

Jakub Pachocki:在OpenAI早期,咱们深受AlphaGo的获利的启发,看到了深度强化学习的后劲,因此咱们对其进行了潜入商榷,并看到了数据和机器东谈主技巧的大鸿沟推广。

咱们也运转想考如何技艺在通用鸿沟进行强化学习,从而完了相配巨大的东谈主工智能。

然后咱们看到了GPT范式中推广和监督学习带来的惊东谈主后果,从那时起,咱们就一直在想考如何将这两种不同的范式合二为一。

Mark Chen:样式运转的着及时间很难细则,但依然与Yaku和Shimon进行了早期探索,与Lukash、Ilya进行了早期探索。

一个紧要的时刻是Jerry的加入,他激动了这个大型样式标进展。

★商榷经过中的“Aha moment”

Bob McGrew:我认为在商榷经过中最精彩的便是哪些“Aha moment”,你们的责任当中有哪些高光时刻呢?

Jerry Tworek:咱们覆按了 GPT-2、GPT-3 和 GPT-4,每一次齐成为了媒体上的热门。

但第一次有这种嗅觉是当模子出来的时刻,总计东谈主齐赞叹很棒。

对于我而言,这么的时刻是当咱们参加了更多狡计资源,并第一次生成了连贯的想维链时。

那时咱们心想,这和过去的模子看起来确切很不雷同。

Trapit Bansal:当咱们筹议覆按一个推理模子时,我立即料到的一件事是,用东谈主类的想维经过进行覆按。

但我发现,使用RL覆按模子来生成己的想维链,适度不错作念得比东谈主类写的想维链更好。

在我看来这便是一个“Aha moment”,它告诉咱们不错通过这种覆按形貌,让推广模子的推理技艺得回推广。

Hunter Lightman:咱们花了很长的时间,一直尝试让模子更好地无间数学问题。

为此咱们付出了许多悉力,咱们想出了许多不同的递次,但有一件事让我一直很报怨,

每次我读到这些模子的输出时,发现模子似乎持久不会质疑我方那儿出了问题,什么时候犯了造作。

但当咱们覆按早期的o1模子并与之对话时,发现它在数学测试中得分更高了。

通过不雅察它的推理形貌,咱们发现它运转质疑我方,并进行了相配趣味趣味的反想。

那一刻我嗅觉哇,咱们发现了一些不同的东西。

★嗅觉模子像东谈主照旧像机器?

Bob McGrew:你们在看模子的想考经落伍,以为他们是更像真东谈主照旧更像机器东谈主?

Liam Fedus:这更像是一种“精神体验”。

你不错看到模子也会犯许多东谈主类时常犯的造作,又能看到它对一些知识提议质疑。

很奇怪,模子会带有东谈主类的行径。

Wojciech Zaremba:在模子被设定了ddl的情况下,往往会在快due的时候马上得出论断。

好像大模子也知谈我方必须坐窝给出谜底。

Karl Cobbe:我年青的时候花了许多时间参加数学竞赛,而我进入东谈主工智能鸿沟的原因,便是试图完了这个经过的自动化。

是以对我来说,这是一个相配紧要的鼎新点,因为我看到这个模子试验上简略投降我无间这些问题时使用的要道

天然这不是统统调换的想路,但相配相配可靠。

Wojciech Zaremba:不错敬佩,这些模子正在成为着实激动工程和科学发展的要素。

如果它们似乎能无间即使群众也难以无间的问题,炒股票那么将简略激动科学杰出。

★研发经过中的贫苦

Bob McGrew:咱们谈了许多令东谈主振奋的时刻,那么在责任经过中又遭受了什么隔断?

Jerry Tworek:覆按大型模子从根底上来说便是一件相配相配贫苦的事情。

有成千上万的事情可能出错,而且在每个鸿沟齐有事情如实出错了。

是以简直这里的每个东谈主齐像你们知谈的雷同,在覆按这些事情上付出了许多心血和汗水,并想出了如何让模子不绝学习和杰出的递次。

试验上,奏效的谈路相配褊狭,而失败的形貌却有许多。

Wojciech Zaremba:就像辐射火箭雷同,如果你偏离了一个角度,你就无法到达宗旨地,而这便是咱们的责任。

Ilge Akkaya:这个模子相配好,鄙俗比东谈主类好几倍,能达到博士的水平。

关联词这无意是一个挑战,因为咱们必须时常去考证模子莫得偏离轨谈。

但咱们依然足够了总计行业级的评估,咱们不知谈下一步该商榷什么。

Mark Chen:这亦然一种树立感,就像每次遭受难题雷同。

这就像这个团队要克服的另一个隔断,我确切很雀跃咱们克服了总计这些小隔断。

OpenAI里面这么用o1

★如何测试模子推崇

Bob McGrew:你们测试模子的递次有哪些,有莫得什么可爱的问题,并发现模子在这些问题上变得越来越好?

Shengjia Zhao:Strawberry里有几个r?

Wojciech Zaremba:不论是什么原因,ChatGPT无法可靠地无间这些问题。

咱们花了一年半的时间,当今咱们不错狡计出strawberry中的“r”的数目。

Hunter Lightman:我有一个习气,我想其他东谈主也有。

每当上推特时,齐会看到一些帖子说大模子无法无间这类问题。

我就把它复制粘贴进去,然后发现咱们的模子不错作念到。

★里面o1使用递次

Bob McGrew:为了让东谈主们了解他们不错使用这个模子作念什么,我很想听听你们使用o1的一些递次。

Hyung Won Chung:我使用o1的形貌主如果用来写代码。

我的许多责任齐是对于代码的,我越来越爱护问题界说,并使用TDD(测试驱动设立)。

因此,我不再编写完了功能的代码,而是专注于编写单位测试。

因为o1不错完了东西,是以我不错专注于紧要的、需要无间的高等问题,这确切是一种滚动我耀认识的紧要形貌。

另一个鸿沟是debug,当今当我收到一些造作音书时,我只需传递给o1,无意它会立即无间。

即使莫得,它至少会给出一些更好的问题,提供一些更好地想考这个问题的递次。

是以对我来说,这是一个相配紧要的责任变化,我但愿这也能匡助其他东谈主。

★o1-mini的出身经过

Bob McGrew:o1-mini的故事是怎么的?它是如何出身的?

Hongyu Ren:咱们想把o1系列带给更多东谈主,它有更低的老本,是以作念了o1 mini。它是o1框架的最小演示,是“推理群众”。它不一定能知谈你可爱的名东谈主的诞辰,关联词它能灵验地推理,而且很智能。

试验上它确切很机灵,比咱们之前最佳的模子齐要机灵许多,简直与o1格外,关联词老本和时延比它低许多。

不外也如实有局限性,可能不知谈许多外部天下知识。这与技巧本人无关,咱们试图让它达到和此前最佳模子最小版块差未几的水平,而且仍旧在悉力进一步翻新它。

用户尝试了o1 mini会很振奋,因为它推理和想考的速率确切很快。

★是什么引发你作念这些商榷?

Łukasz Kaiser:我只是以为在这个天下上,有一些不错作念推理、有智能的东西,比遐想中小许多。它们不错以不同形貌作念到这少许,这就相配迷东谈主了。

Giambattista Parascandolo:我以为这是向模子范式休养的第一步。过去花很长时间技艺无间的问题,当今作念到了分钟级,这只是漫长谈路的第一步。咱们但愿能在几个月或几年后,迈出第二步。

Wojciech Zaremba:我以为这很挑升旨,咱们不错对天下产生一些本质性的积极影响。

而且这很趣味趣味,我可爱对着电脑“话语”,可爱在集群上运转一项责任,也相配可爱合营。

Jerry Tworek:我认为科技不错改善东谈主类生涯,我可爱咱们的模子能为东谈主责任,匡助咱们无间普通问题,赋予它推理技艺让它作念事。

Liam Fedus:我认为这一范式无间了一些模子无法无间的问题,是以不单是是回应变好少许,而是通过方案、通过造作校正,它解锁了全新技艺,辞天下上创造新知识的技艺,比如科学发现,我认为这是最令东谈主振奋的部分。

短时间内,它的自身进化会越来越快,这确切很棒。

Mark Chen:咱们团队中一些成员特等学等方面的布景,这驱动咱们我方想去创造一个最佳的系统。

Hyung Won Chung:我认为推理比东谈主们遐想中的还要巨大。当东谈主类想要完成某项任务时,最基本的递次便是推理,你会遭受贫苦,你必须要找到无间递次。

我以为AI商榷员的责任好像是要找到一种递次来参加更多的狡计。硬件方面的商榷者在这方面作念的很好,很长一段时间硬件老本齐在指数级下跌。

需要的狡计量越来越多,就好像肩膀上的分量越来越重。这个新形状找到了一种递次,来帮咱们卸下一些分量。

★在这项商榷中,你们还不雅察到什么吗?

Jason Wei:咱们发现一个趣味趣味的欢乐是,每个模子齐有我方的“怪癖”。

覆按的每个模子在每个任务上的推崇齐不统统调换。是以模子可能有些任务推崇得更好,有些推崇得更差。每个模子齐有它我方的个性和优点。




Powered by 股市配资 @2013-2022 RSS地图 HTML地图

建站@kebiseo;2013-2022 万生配资有限公司 版权所有