【OpenAI】AI新时代揭幕！会-思考解题逻辑-的OpenAI推理大模型登场

栏目导航

财经热点 > 财经资讯 > AI新时代揭幕！会-思考解题逻辑-的OpenAI推理大模型登场

【OpenAI】AI新时代揭幕！会-思考解题逻辑-的OpenAI推理大模型登场

浏览次数：【534】发布日期:2024-9-13 3:58:03 文章分类：财经资讯

　　北京时间周五凌晨1时许，AI时代迎来崭新的起点——能够进行通用复杂推理的大模型终于走到台前。

　　OpenAI在官方网站发布公告称，开始向全体订阅用户开始推送OpenAI o1预览模型——也就是此前被广泛期待的“草莓”大模型。OpenAI表示，对于复杂推理任务而言，新模型代表着人工智能能力的崭新水平，因此值得将计数重置为1，给它一个有别于“GPT-4”系列的全新名号。

　　推理大模型的特点，就是AI会在回答之前花更多时间进行思考，就像人类思考处理问题的过程一样。以往的大模型，背后的理论是通过学习大量数据集中的模式，来预测单词生成的序列，严格来说其实不是真正理解提问。

（明显能感知到的“思考”过程，来源：OpenAI）

　　认知将跃升至“理科博士生水准”

　　OpenAI曾解释过，2023年发布的GPT-4类似于高中生的智能水平，而GPT-5则是完成AI从“高中生跃升至博士”的成长。这个o1模型就是其中重要的一步。

　　相较于GPT-4o等现有的大模型，OpenAI o1能够解决更加艰难的推理问题，同时改善过往模型中存在的机制性缺陷。

　　举例而言，这个新模型能够数清楚strawberry里到底有几个“r”。

　　同时AI在解答编程问题时也会更有条理，在着手写代码前，把整个回答的流程全部思考完一遍，再动手输出代码。

　　例如在预设条件的写诗任务（例如第贰句的最后一个单词需要以i收尾）中，“拿起笔就写”的GPT-4o的确给出了回答，但往往只会满足了一部分条件，同时不会自我纠正。这意味着AI务必在第壹次生成时就能碰上正确的定论，不然就一定会犯错。但在o1模型中，AI会不断试错并打磨答案，从而明显提高生成结果的准确率和质量。

　　有趣的是，点开AI思考的过程，还会出现AI表示“我在思考这事这么做行不行”、“啊时间不够了得尽快给出答案”等。OpenAI确认，这里展示的其实不是原始的思维链，而是“模型生成的摘要”，公司也坦率承认这里有保持“竞争优势”的因素。

　　OpenAI的研究责任人Jerry Tworek透露，o1模型背后的练习与之前的产品有着根本性的区别。之前的GPT模型旨在模仿其训练数据中的模式，而o1的练习旨在让其独立处理问题。在强化学习的进程中，使用奖励和责罚机制来“教育”AI使用“思维链”来处理问题，就像人类习得拆解、分析问题的形式一样。

　　根据测试，o1模型在国际数学奥林匹克的资格考试中，能够拿到83%的分数，而GPT-4o只能正确解决13%的问题。而在编程能力竞赛Codeforces中，o1模型拿到89%百分位的成绩，而GPT-4o只有11%。

（图上显示，o1模型预览版的能力会比正式版低一截）

　　OpenAI表示，根据测试，在下一个更新的版本中，AI在物理、化学和生物学的挑战性基准测试中，表现能够与博士生水平类似。

　　该讲讲缺点和局限性了

　　不难明白，会自己思考问题的AI模型，对于程序员、创意工作者，和基本上所有的理科相关专业工作者而言是有益的升级，但这个新模型也有局限性。

　　首先，OpenAI o1模型（至少目前）还不是多模态大模型，同时在回答事实性问题时也不如其它模型。所以在图像互动、常识问答、互联网搜索方面，GPT-4o仍然是更胜一筹的决策。当然，OpenAI明确表示未来会给这个模型增加联网、文件和图像上传等功能。

　　另外一个问题则是贵，而且是非常贵。o1-预览模型的定价是每百万个输入tokens 15美元，每百万个输出tokens 则要60美元，分别是GPT-4o的3倍和4倍。一百万tokens大致相当于75万个英文单词。

　　除了OpenAI o1-预览版外，OpenAI也同步推出了o1-mini模型。后者是一个更快、更便宜的模型，定价也会便宜80%，适用于需要推理但不用广泛世界知识的场景。

　　而且从OpenAI“抠抠索索”的表现来看，这个推理模型恐怕非常消耗算力。公司宣布，从9月12日起，ChatGPT订阅用户可以访问这两个新模型，但目前o1-preview每周消息数量限制为30条，o1-mini则为50条。

　　企业版ChatGPT和教育用户可以从下周开始访问这两个模型。API使用等级达到5级的开发者可以立即开始使用这两个模型，每分钟的速率限制为20次。OpenAI未来准备向免费用户提供o1-mini模型，但目前还没有时间表。

手机扫码浏览该文章

2024-9-14【大模型】智谱AI狂奔！视频通话功能-首秀-，国产大模型解锁新能力 - 聚焦服贸会

2024-9-13【OpenAI】AI新时代揭幕！会-思考解题逻辑-的OpenAI推理大模型登场

2024-9-10【格灵深瞳】视觉模型底座超越OpenAI，格灵深瞳开启多模态落地的Scaling - Law

2024-9-8【英伟达】AI周报-xAI上线全球最大AI训练集群;谷歌高管警告称AI未必能影响生产力

2024-9-7【大模型】当企业都在谈出海 - 鹅厂的这朵云能做啥？

2024-9-7【回购股份】硬科技投向标-十一部门 - 优化布局算力基础设施大模型独角兽智谱完成新一轮数十亿元融资

2024-9-7【大模型】AI领域多项-首个标准-发布近百名选手参与开源模型代码接力对抗-深度伪造-

2024-9-7【大模型】AI有无泡沫、卷向何方、风险如何规避...你要的答案都在这

2024-9-4【大模型】数智早参 - 生成式AI之父 - 中国将在几年内缩小硬件差距

● 相关资讯专题

【人工智能】【中国移动】【中国电信】【电信运营商】【大模型】【OpenAI】【GPT】【思考解题逻辑】【格灵深瞳】【多模态】【英伟达】【xAI】【生产力】【汤道生】【腾讯云】【回购股份】【股权激励】【供应链】【张朝阳】【石清华】【生成式AI】

网站首页

主机域名

网站模板

网站开发

软件开发

财经资讯

金融工具

管理中心

栏目导航

关于我们

关于我们

付款方式

售后服务

主机域名

信息资讯

解决方案

网站建设

业务入口

服务支持

信息资讯

移动网站