“DeepSeek在基座大模型上做出的突破,是天才级别的。”
不久前,国产大模型公司深度求索(DeepSeek)引发的舆论震动,让今年春节成为“最有AI味的年”。谈到DeepSeek旗下标志性大模型DeepSeek-R1,多位业内人士向澎湃新闻记者表达了高度赞赏。
1月28日,大洋彼岸的 人工智能 巨头Open AI 总裁山姆·奥特曼(Sam Altman)发文回应DeepSeek造成的挑战:“DeepSeek推出的R1令人影响深刻,我们当然会推出更好的模型,有新的竞争对手也令人振奋。”
国内某Top2 AI草创企业也对记者坦言,他们感受到了同行造成的压力:“后续我们会加快产品研发的视角。”
与之对照的是在产品上的快速迭代:除夕当天,DeepSeek静悄悄的地发布开源多模态模型Janus-Pro。此前1月27日早间,DeepSeek应用曾登顶苹果中国地区和美国地区应用商店免费APP下载排行榜,在美区下载榜上超越ChatGPT。
“多模态考验的是对人类世界和环境的认知,相信DeepSeek在此刻发布多模态大模型,一定有自己的信心和底气。”1月28日,360开创人周鸿祎告诉澎湃新闻记者,“中国大模型技术复仇者联盟战队里一定有DeepSeek的一份,因为这家公司和它的开创人非常低调,他们技术能力和未来前景被市场严重低估了。”
“现在硅谷都把DeepSeek叫做来自东方的神秘力量,中国AI公司的创造力已经刹不住车了。”周鸿祎表示。
AI军备竞赛已进入深水期,曾有观点认为,在字节、阿里、腾讯等大厂包围下,AI创业公司将面临洗牌,难逃被并购的命运,而杀出重围的却是似乎“名不见经传”的DeepSeek。DeepSeek走红的秘密是啥,为国内大模型行业造成哪些启示?
DeepSeek优秀在哪?
“DeepSeek公司高层明确对商业化不感兴趣,只想做技术研究,这样的高度普通人达不到。”
有了解DeepSeek人士向记者透露,自己曾经面试过一些AI领域的人才,最后拒绝了自己的企业,去了DeepSeek,理由是他们科研氛围好,是一个真正做事的团队。
“从薪资来看,其实他们只是业内中流水平,高,但其实不是最高的。”他向记者坦言,“如果说人才密度,可能还比不上头部大厂。其实不是大厂的人不聪明,而是大厂的聪明人花了太多精力在技术之外。大厂虽然薪资高,可是内部斗争也多,想要真正专心做事,反而不如这样的技术公司纯粹。”
尽管在外界眼中,DeepSeek就像是一夜爆红,但此前早有多项成就引发行业关注。2024年,在大模型行业率先发起价格战的正是DeepSeek,但并未引起外界关注,尔后智谱、字节跳动等跟进,才引发整个行业的降价潮流。
当时的DeepSeek,还未真正让他人看到它的实力。2024年,智谱AI COO张帆在接受采访时曾开玩笑说:“我们是主流厂商中第壹个降价的。”当时有人提醒,首个降价的厂商实际上就是DeepSeek,张帆表示:“我讲的是主流厂商”。
DeepSeek最引人瞩目的,是其明显降低了大模型开发成本。1月20日,DeepSeek正式发布推理模型R1,其API(编程接口)服务定价为每百万输入tokens(词元)仅需1元(缓存命中)/4 元(缓存未命中),每百万输出tokens为16元。DeepSeek的定价约等于Meta旗下Llama 3-70B的七分之一,GPT-4 Turbo的七十分之一。
因此,DeepSeek也被戏称为AI界的“拼多多”,实现高效低价背后的起因是啥?国内某知名AI公司老总向记者解释称,这主要得益于DS-V3的多项技术创新。首先,DeepSeek采用MoE架构(Mixture of Experts,混合专家模型),通过将大模型变成多个稀疏的专家小模型,并通过多个模型聚合来达到和传统大模型十分的能力,有效降低了计算成本。
其次,DS-V3在训练方法上进行了重要创新。采用FP8混合精度训练,效率是常规BF16精度的约1.6倍;同时优化了并行流水线,提升了训练和推理效率。这些优化加上训练的一次成功,使得V3的练习成本降至约550万美元。
而在最新发布的DS-R1中,DeepSeek采用了创新性的GRPO(组相关策略优化)强化学习方法,无需庞大的人类标注数据库。通过让模型自主生成并验证结果的形式,R1展现出了强大的推理能力。随着训练步数增加,其思维链(Chain-of-Thought,CoT)的长度不断增长,模型甚至开始在推理进程中进行自我反思。
“DeepSeek R1的成功意味着,如果基础模型能力够强,在强化学习进程中它就能自己学会推理。这也是为啥国外AI圈的人看到DS-R1后惊呼AGI居 然离我们如此之近的原因:因为R1证明了能力足够强的模型是可以不依靠人类自己进化的,尽管现阶段的reward还是需要标签。”上述人士表示。
《麻省理工科技评论》分析称,DeepSeek R1 采用类似ChatGPT o1使用的“思维链”方法,它可以通过逐步处理查询来处理问题。这可能是美国对华高端 AI芯片 出口管制造成的意外结果,强逼我国的草创企业“优先考虑效率”。
有意思的是,如果问DeepSeek自己R1模型相比OpenAI有哪些特点,DeepSeek的回答是,创新点可能在“注意力机制”和“参数效率”,R1在处理长文本时更聚焦关键部分(好比法律合同中的条款),减少计算量,类似“读书时用荧光笔画重点,只反复看关键段落”。在参数效率方面,用类似MoE(混合专家系统)的结构,把模型分成多个“子专家”,不同任务激活不同部分,既节省算力又提升效果(类似“看病时分科室挂号,心脏问题找心内科专家,不用让全科医师从头学到尾”)
DeepSeek自我评价道,“DeepSeek像一家精品店,在特定领域更专精;OpenAI像大型超市,啥都有但价格高。”
为啥是DeepSeek?
谈到DeepSeek,离不开开创人梁文锋。这位在外人眼中朴素、低调的“85后”企业家,最近也站在了媒体的聚光灯下。
根据公开报道,梁文锋从小就流露在数学领域的天赋和兴趣,曾是高考状元,在浙大求学期间就与同学一起积累市场行情数据和探索全自动量化交易。
2008年金融危机期间,他率领团队使用机器学习等技术探索全自动量化交易。2015年建立对冲基金“幻方量化”,2021年资产管理规模突破千亿大关。2023年开办深度求索DeepSeek,专注于通用 人工智能 (AGI)的突破。
“一件激动人心的事,或许不能单纯用钱衡量。就像家里买钢琴,一来买得起,二来是因为有一群急于在上面弹奏乐曲的人。”在公开采访中,梁文锋我曾经如此谈论他心中的AGI(通用 人工智能 )。
在另一段采访中,他提到,中国AI不会永远处在跟随的位置,“我们我们时常说中国 AI 和美国有一两年差距,但真实的Gap(差距)是原创和模仿之差。如果这个不改变,中国永远只能是追随者,所以有些探索也是逃不掉的。”
他认为,英伟达的领先,不只是一个公司的努力,而是整个西方技术社区和产业共同蹈厉奋发的结果,“中国AI的发展,同样需要这样的生态。很多 国产芯片 发展不起来,也是因为缺乏配套的技术社区,只有第贰手消息,所以中国一定需要有人站到技术的前沿。”
梁文锋不打无准备之仗。幻方量化官方网站显示,其在2018年就确立以AI为公司的主要发展方向。
2020年开始,幻方累计投资超亿元、占地面积相当于一个篮球场的AI超级计算机“萤火一号”正式投入运作,2021年,幻方投入十亿建设“萤火二号”,以“任务级分时共享”为核心宗旨,调度系统秒级响应,平台配备强大的软件层支持:高性能算子库(hfai.nn)、分布式训练通讯框架(hfreduce)、专为AI开发而生的大容量高带宽文件系统(3FS),让AI模型能自如拓展到多节点之上,进行大规模并行训练,算力扩容翻倍,集群连续满载运行,平均占用率达到96%以上。
梁文锋曾在采访中表示,最早的一张卡到1万张卡,这个过程是逐步发生的,而这里面主要是好奇心驱动,“对AI能力界限的好奇”。
“DeepSeek最令美国科技圈震惊的是,在开源大模型上做到了突破性的领先。” 昆仑万维 总裁方汉向澎湃新闻记者评论称,“以往美国在基座大模型上处于绝对优势,例如ChatGPT,后续的大模型都是基于ChatGPT进行改进和优化。此前,在开源大模型领域最可靠的是Meta的Llama系列,但如今DeepSeek完全超越了Llama,这意味着,后续的行业大模型可能将基于DeepSeek进行深度开发。”
“中国可能取代美国在基座大模型的统治地位,这是美国特别担忧的。”方汉坦言。
美国AI草创公司Perplexity首席执行官在接受采访时认为,DeepSeek的模型堪称“疯狂”。“这些中国团队推出了一个疯狂的模型,API价格比GPT-4便宜10倍,甚至比Claude便宜15倍,速度极快,并且在某些基准测试中与GPT-4相当,甚至更好。他们总共只花了500万美元的计算机预算,就做出了如此惊人的模型,并且免费公开了技术论文。”
据美国全国广播公司(NBC)报道,美国总统特朗普当地时间1月27日在佛罗里达州迈阿密举行的共和党会议上表示,中国 人工智能 草创公司DeepSeek的AI技术给美国科技企业敲响“警钟”,美国公司“需要专注于竞争以赢得胜利”。
“DeepSeek效应”如何发酵
DeepSeek的成功,暴击AI硬件龙头英伟达。
当地时间1月27日,英伟达(Nasdaq:NVDA)股票价格狂跌16.86%收于每股118.58美元,跌至过去10月以来的最低点;总市值2.90万亿美元,一日蒸发5900亿美元(约合人民币4.28万亿元),创史上最大单日个股市值蒸发纪录。
英伟达的狂跌也使得开创人黄仁勋的身家大幅缩水210亿美元。
DeepSeek在国际范围内的成功,也为中国AI草创企业造成“DeepSeek效应”。
“我对AGI的判断,是一场马拉松。目前技术仍然还没有收敛,算力是一个重要的影响因素。”国内AI头部草创企业、面壁智能总裁李大海对记者说。
他介绍,就像DeepSeek一样,面壁也在旗下开发的MiniCPM-S系列引入自研稀疏化方案,通过将激活函数替换为ReLU及通过带渐进约束的稀疏感知训练来提升大模型的稀疏性,能将Llama、MiniCPM 稀疏度提升至接近 90%,并且也能够在保持模型原有水平的条件上,有效降低模型推理的开销。
“DeepSeek的成功,说明中国 人工智能 企业已进入世界第壹梯队。尽管我们要承认中美在 人工智能 上的确有原创性的差距,可是R1的发布将会很大水平影响这个行业的发展,2025年中国在AI领域的创新相当值得期待。”资深AI从业者、猎豹移动老总兼总裁傅盛表示。
而方汉认为,要谈中国在AI上的能力完全赶超美国,还为时尚早,可是DeepSeek的表现,说明中国AI在发展空间上的确为人瞩目。中国拥有最庞大的AI工程师队伍和最多的AI论文数量,“在AI领域,中国和美国的优势相比其它国家是巨大的。”
“如果要双方真正等量齐观地竞争,还是需要处理算力卡脖子问题。”方汉坦言,“可是我预计将在2-3年内完全解决这个问题。相信在不久之后,能看到两个国家真正实现你追我赶、公平竞争。”