【杨植麟】对话月之暗面杨植麟 - Kimi推理模型对标OpenAI o1 预训练还有提升空间

热点专题 > 信息资讯 > 对话月之暗面杨植麟 - Kimi推理模型对标OpenAI o1 预训练还有提升空间

【信息来源】发布日期：11-16 17:33:45 文章分类：信息资讯

　　在月之暗面北京总部会议室，今年刚刚31岁的杨植麟正在摆弄他的笔记本。在下个会议开始之前，这位忙碌的开创人要抽出一个钟头，为公司完成一些输出，并回应一些疑问。

　　他全程神色轻松，能在时不时的玩笑中笑出来。这一个钟头没有回应任何行业和产品以外的问题，但好像又充分展现了态度。

　　在公司卷入风波一周后，这是一场突然且罕见的产品发布会，传递的信号言简意赅：公司的重心仍然在模型研发和产品推进上。

　　11月16日，在Kimi Chat全量开放一周年之际，Kimi发布新一代数学推理模型k0-math，数学能力对标OpenAI o1系列。

　　在中考、高考、考研和包含入门竞赛题的MATH等4个数学基准测试中，k0-math初代模型成绩超过o1-mini和o1-preview模型。在两个难度更大的数学题库OMNI-MATH和AIME基准测试中，k0-math初代模型的表现分别达到了o1-mini最高成绩的90%和83%。

　　另外，Kimi探索版在搜索体验上也加入了强化学习，在意图增强、信源分析和链式思考三大推理能力上有所提升。

　　月之暗面方面表示，k0-math模型和Kimi探索版，未来几周将会分批上线Kimi网页版和Kimi智能助手APP。

　　杨植麟作为此次产品发布的主讲人，同时探讨了行业近期一系列关键议题。

　　杨植麟将AI技术过去几年的发展归功于“Scaling”，但认为这不是简单将模型做大就可以，核心是找到有效的要领去“Scale Up”，例如说更好的数据或算法。

　　同时，他提及背后的范式已经发生一些转变，例如要从“Next-Token Prediction（预测下一个token）”转向更关注基于强化学习的“Scale Up”。

　　这是让大模型打破静态数据集造成的局限性，进而具备思考能力去探索更艰难任务的重要环节。

　　对杨植麟而言，数学场景被认为是AI锻炼思考能力最适合的场景。他引用了伽利略的一段话，“这个宇宙假如你把它看成一本很大的书，宇宙它实际上就是用数学来写的，数学是表达这个宇宙的语言”。并且，在数学场景中，AI不用跟外界交互就可以自成一体。

　　除了明确表示向强化学习进击之外，杨植麟对预训练模型作出了自己的评价和判断。他对Scaling Law仍然乐观，认为预训练模型还有半代到一代的提升空间，这个空间大概率会由头部大模型在明年释放出来。

　　杨植麟还透露Kimi Chat的月活用户规模达到3600万，他难得地强调，提升留存就是Kimi当前最核心的目标。

　　“基本上它跟你的技术成熟度或技术水平也是一个正相关的过程，所以对我们当前来说是最重要的。”他说。

　　以下为杨植麟受访实录，略作编辑：

　　记者：你们预训练的情景如今是啥样的？

　　杨植麟：我认为预训练还有空间，半代到一代的模型。这个空间会在明年释放出来，可靠的模型会把预训练做到一个比较极致的阶段。

　　可是我们判断接着的关键会在强化学习上，范式上会发生一些变化。它还是Scaling，只是通过不一样的形式去Scale。

　　Scaling law会不会有一个天花板或上限？我相对来说比较乐观一点。核心在于原来用静态数据集是比较简单粗鲁的使用方式，现在用强化学习的形式，很多情境下是有人在参与这个过程。可是人没有办法标注那么多数据，不会把每道题具体的思路都标出来，所以你实际上就是用AI本身加上人的杠杆。例如说你标100条数据，就能发生特别大的作用，因为剩下的它都是在自己思考。

　　它从做法上来说确定性是相当高的，因为很多时候（模型）是一个调出来的过程。我现在觉得大概率可以通过这种方式做出来，它上限是很高的。

　　记者：关于多模态模型的问题，Sora马上要发了，大概是圣诞节之前，始终不做多模态的起因是啥？

　　杨植麟：我们也做，几个多模态的能力在内测。

　　我是这样看的，AI接着最关键的是思考和交互这两个能力。思考的重要性远大于交互，不是说交互不重要，交互是一个必备条件，但思考会决定上限。

　　你就看这个任务的标注难度有多大，你到底需要一个博士去标，还是每个人都能标，哪个任务更难找到这样的人，那个东西就是AI的上限。

　　记者：你是啥时候决定聚焦Kimi？

　　杨植麟：大概今年二、三月份吧，或三、四月份，大概那个区间。一个是基于美国市场的判断，二是基于我们自己的观望，主要是这两点。还有就是的确得做减法，不是疯狂的做加法。

　　记者：对于Kimi而言，它当前的最核心的任务是啥？

　　杨植麟：最核心的任务就是提升留存，或把留存身为一个重要的衡量指标。基本上它跟你的技术成熟度或技术水平也是一个正相关的过程，所以对我们当前来说是最重要的。

　　假设我们衡量距离AGI目标的距离，现在还是初级阶段，当然每年都有一些比较大的进步，如果今年用去年的产品，你会发现可能压根没法忍受。

　　记者：Kimi过去一年的确深受很多用户的喜欢，可是它最受争议的一个问题就是烧钱投放，能不能今天有一个正式的回应，就是为啥Kimi在那么早的时间选择投放用户？你今天也说到了关于留存其实并没有那么的满意，那接着投放的动作会是连续性的么？

　　杨植麟：整体留存我们相比于其它的产品还是有优势的，如果放眼去看这个产品的终极生态，今天肯定有特别大的空间，这个是我想表达的，我们会持续在这个方面做得更好，肯定还有很大的空间

　　记者：因为预训练的Scale现在都觉得遇到瓶颈了，美国遇到瓶颈以后你觉得对中美大模型的格局的影响是啥？差距是变大还是变小？尤其是对于中国公司来说是好事还是坏事？能不能对未来做一些预测？

　　杨植麟：对我们来说它有可能是一个好事。假设你一直pre-train，你的预算今年1B、明年10B或100B，它不一定可持续。当然你做post-train也要Scaling，只是说Scaling的起点很低。你可能Scale很长一段时期，在一段时期内你的算力就不会是瓶颈，这个时候你的创新能力是更重要的，在这种情景下我认为对我们反而是一个优势。

　　记者：在范式转化之后，从训练的Scaling到推理的Scaling，可以完整回顾一下，看到这个趋势的时候做了哪些重要的判断？之后的技术和产品上已经有了哪些调整？

　　杨植麟：o1的变化实际上就是可以预测的，我们很早就在说接着推理占的比率会远远超过训练。因为你如果去分析的话，它是一定引发的，你没有那么多数据训练，你肯定是要生成数据，生成数据肯定是强化学习，本质是同样的。

　　只不过在早期预训练的很多红利没有被完全施展出来，所以可能很关注怎么通过Next—Token prediction能压缩出来更多的智能。可是我们很早去铺垫，例如说在强化学习上我们能做什么，甭管是在人才上还是在技术的储蓄上。

　　记者：o1发了以后大家也会觉得深层推理，还有包含你今天说的数学模型，它离普通用户比较远，你怎么看这个功能和用户的关系？

　　杨植麟：其实也不远。数学我认为是两个方面的价值，第壹个方面它今天在教育产品上其实有特别大的价值。在我们整体的流量里也起到很关键的作用。第贰个，我认为它是技术上的迭代和验证。我们可以把这个技术去放在更多的场景里，好比我们刚刚说的探索版。

　　记者：怎么看待AI创业公司被收购，人才回流大的现象？

　　杨植麟：这个问题我们没有遇到，但可能有一些别的企业遇到。行业发展进入了一个新的阶段，它从一开始有许多公司在做，变成了现在少一点的企业在做，接着大家做的东西会逐渐不一样，我认为这是一定的规律。

　　我们主动选择做了业务的减法，这个还是很关键的，你应该聚焦一些重要的事情，然后做好。在这几个大模型创业公司里，我们始终保持人数最少，始终保持卡和人的比率是最高的，这个非常关键。

　　假如你想把团队保持在一定的规模，最好的形式是业务上做一些减法。我们一开始的确也尝试过几个产品一块做，这在一定的时期内有可能是有效的，到后来发现还是要聚焦，把一个产品做好、做到极致是最重要的。

　　砍业务本质也是在控制人数，不希望人数长得特别猛。如果现在三个业务一起做，我就活生生把自己变成大厂，就没有任何的优势。

手机扫码浏览该文章

【杨植麟】「AI新世代」创始人陷仲裁风波，Kimi光环下商业化却非优先 - 月之暗面如何应对多事之秋

【杨植麟】科技早报 - 月之暗面创始人杨植麟被前投资人提起仲裁；比特币触及89000美元创历史新高

【杨植麟】月之暗面 - 最新回应！

【杨植麟】月之暗面创始人被前投资人提起仲裁 - 委托律师称将提出抗辩

● 相关资讯专题

【杨植麟】【Kimi】【强化学习】【月之暗面】【张宇韬】【创始人】【商业化】【赵长鹏】【比特币】【投资人】

上一条 : 华尔街传奇人物出手 - 重仓这些中概股 - 持仓有重大变化
下一条 : 中标均价再创新低 - 储能如何走出价格内卷漩涡？