AI,是今年全国两会的热词之一。除了频繁在代表委员的提案中被提及,“ 人工智能 +”还第壹次被写入政府工作报告。
赛迪研究院数据显示,2023年中国AIGC的企业采用率已达15%,市场规模约为14.4万亿元人民币。专家预测,2035年生成式 人工智能 有望为全球贡献近90万亿元的经济价值,其中我国将突破30万亿元人民币。
百模大战升级,跟不跟?OpenAI发布Sora,意味着什么?AI造成的推翻性变革下,还有许多追问。
啥是 人工智能 产业发展的真问题?全国两会期间,南方财经全媒体-21世纪经济报道记者就此对全国政协委员、中国工程院院士王坚进行了专访。
一定不要 人工智能 庸俗化
《21财经》:从22年年底ChatGPT登场直到今天,产业界已经历经多轮搏杀。您认为,国内的“百模大战”跑出了哪些您认为比较成功的场景、产品或技术?
王坚:要谈优劣,首先需要明确讨论的对象。我认为当前所谓的百模大战优劣讨论中,包含了几个不同层面的概念。
首先,真正意义上的大模型包含两种类型:第壹种是基础模型(foundation model);第贰种是基于基础模型做了一点针对性调试(fine-tuning)的模型,这种大模型在某一个领域、场景表现得更好。前者可以叫通用模型,后者可以称作是应用模型(专用模型)。
在这两类模型之外,还有模型应用。所谓模型应用,是指根据现有的模型开发一个应用来提供服务。在模型应用背后提供支持的,可以是通用模型,也可以是垂直模型。
以OpenAI为例,该公司的GPT是早在2017年就已经存在的技术概念,GPT-3、GPT-4等,是公司开发的条件模型,而ChatGPT、Sora则是基于基础模型的应用产品。
不同层级的概念,比较的标准也不同。因此,比较应该在同类型的技术或产品间展开。
假如是在基础模型的领域作比较,Hugging Face社区上的模型榜单是相对更有参考性的。这个社区汇集了世界各国、各种版本的大语言模型,样本量较大,所以如果模型能上榜,其质量相对来说会有一定保障。
不过,虽然目前行业内有一些共识,可是要给出确切的指标和“谁比谁好”的定论,其实不简单。
处在大模型创业早期的企业为了展现其潜力,可能会倾向于强调他们的应用拥有大量的用户;一些更关注底层技术的企业会更重视其基础模型是否优越。我个人观点还是支持基础模型的能力更重要。毕竟,如果能力原封不动,用户的数量增长和留存率都很难维持。
总而言之,我认为谈比较还太早。针对这种还处于发展早期的技术,讨论出一个确切的定论要考虑太多复杂的因素,还需要投入更多的精力和资源研究讨论。
《21财经》:两会期间发布的政府工作报告第壹次提出了“ 人工智能 +”的概念,您如何解读这个词?您认为它会对AI和其它行业发生怎样的影响?
王坚:“ 人工智能 +”是对未来 人工智能 产业非常不错的总结,对推动 人工智能 技术在我国快速发展有着极其重要的引导作用。但需要我们认真理解“ 人工智能 +”的机理和它对产业变革影响的内在规律。我们务必要避免出现“AI”的深刻、长远影响走向庸俗化,产业发展上只是“新瓶装旧酒” 的情景,让我们失去一次历史性机会。
除了要警惕AI庸俗化,我认为还应该思考“ 人工智能 +”的真正含义,明确 人工智能 的概念和对千行百业的真正意义。需不用用?具体用在哪个方面?该怎么用?不同行业面对这些问题的定论不尽相同。
同时,只想到AI的加和效应,可能太过简单。 人工智能 未来不会只是一个叠加在现存的应用上的工具,它可能会改变一个行业的生产方式。以Sora为例,它的出现可以简单看作是“AI+短视频”的成果,但本质是智能技术除了理解语言之外,开始理解和生成物理世界,尽管它的表达是用视觉的。
发展新技术需要审慎考量。从业者要思考到底如何与AI结合能够实现质的突破,而其实不是把“ 人工智能 +”当成一个框,把所有已经有的东西都套进来。
人类暂时无法预测AI的最佳实践
《21财经》:今年年初,OpenAI发布了新产品Sora。Sora的出现对国内AI产业冲击大么?
王坚:许多人看到Sora后只觉得它可以用来做短视频,实际上就是对这个技术的低估。
过去讨论大模型,很多时候主要说的是大语言模型。语言模型输出局限于文字的表达;Sora该类产品和技术不同,它们输出的是视觉性的结果。尽管仍有许多无法通过视觉显现的东西,但相对文字,视觉描述的真实世界能提供更多细节。
Sora给人类社会造成的惊喜在于其通过精准的视频生成,展现出了对物理世界卓越的领会能力。Sora和ChatGPT背后的条件模型其实都基于GPT-4,但输出上已经从文字迈向视觉,这种优异表现,让我们意识到其背后的条件模型在理解能力上又有了极大进步。
它的出现也会让人开始思考: 人工智能 模型是否真正能够理解我们的世界,甚至能够在理解和生成方面超越我们?Sora展现出的潜力让我意识到,这个问题的定论很有可能是肯定的。
回到国内产业影响这个问题。我认为,需要坦率地承认,在这个赛道上国内外的确是有一定差距。 以前国内也出现过类似的产品,可是生成的视频不高于10秒,技术效果和市场表现都比较一般,企业最终也没能长久存活。
根源问题无非就是在类似GPT4的条件模型技术上还有不同和壁垒。我认为,不用心急,也没必要盲目地追逐热点,扎扎实实地在基础模型研究的进程中,不断发现和处理问题,最终会开发出属于我国的条件模型和商业模式。
《21财经》:今年能称得上 人工智能 的应用元年,阿里云也在不久前发布能让图片“开口唱歌”的技术EMO。您观察比较现实的落地应用场景有哪些?
王坚:现实的应用场景是啥,这个问题很难说清楚。我认为,至少会比大家目前着眼较多文字、图片、视频等生成领域要广泛得多。
Sora的出现使我们意识到 人工智能 在世界理解问题上的进步,这是AI智能程的革命性突破,使其超越了其传统意义上只会模仿人的程序,进一步迈向数字智能。AI将来的存在性是无限的。
在我看来,最重要的还是坚持基础上的研究突破,把基础打牢、筑高,应用才能充分探索。
简单而言,我认为 云计算 - 人工智能 -AI应用的关系,和电-电动机-电动汽车的关系非常相似。
电能被发现之后,电动机也被发明和广泛使用。但从电动机出现到人们开上电动车,中间走过了百年时光。我们花费这么多年才发现电动车这一最佳应用,要花多长时间才能发现AI的最佳应用呢?坦白讲,AI技术还处在相当早期的阶段,可能谁都给不出答案。
AI之于当前的人类社会,就如同电灯之于百年前的人。如今的文生图、文生视频的模式,就类似电气时代早期电灯该类很初级的电能使用。
人类会从电灯一步步走向电动汽车,不能说还没把灯点亮就想到更远的事,同时也不能觉得电灯就是电力使用的全部。AI发展也是同理,其应用突破会随着技术不断升级一一出现,不是一挥而就的。
在电动车成为现实的时候,电灯依旧是我们生活的基本单元,而电气化几乎涵盖了我们生发生活的近乎全部。我对 人工智能 引领的“第四次工业革命”也有这样的期待。
《21财经》:近期阿里、京东云降价相继降价,背后有何战略思考? 人工智能 应用浪潮下 云计算 有何新的增长点?
王坚:当下, 人工智能 的造成的工业革命浪潮正在全方位影响人类社会。作为一名 云计算 领域的从业者,我认为,AI同时也给 云计算 的造成了第叁次革命浪潮。
算力是 人工智能 发展的三要素之一,而 云计算 是最好的提供算力的技术手段,英伟达的黄仁勋也表达过类似的说法。
云计算 的算力,无疑会给大模型进步提供很大支持。这一轮的降价,最直观的效果是对AI发展有积极作用。之前从业者都担忧算力贵造成无法支持AI训练,现在算力成本降低了,研发者在这方面的受到的掣肘会小一些。
我还是希望算力供给方和大模型开发方的关系能够越来越良性,大家共同成长。
开发基础模型是发展核心
《21财经》:您之前在受访时谈到,对 人工智能 技术而言,最关键的是找到每一轮发展的真问题。您认为当前AI产业的真问题是啥?
王坚:在我看来,当下的真问题就是怎样缔造一个属于我国的、足够强大的条件模型。
人工智能 在很长时间里面找的都是玩具性问题(toy problem),好比,最早的时候,科学家尝试教 人工智能 下象棋。从深蓝的对弈到AlphaGo打败了李世石,AI在象棋界的成就次次都能引起很大轰动,可是后续对其它产业引发的影响可能不多。
ChatGPT和后续Sora的出现改变了这一点,它让我们意识到,AI的领会力已经能够涉足其它领域解决事实性的问题,我认为未来这样的情景会越来越多。我想我们可以设想一个这样的终极场景——让AI解决一个城市的运行和发展问题,城市GDP是多少、日常如何运转,都能通过强大的条件模型来协调解决。
不过,从ChatGPT开始,到 人工智能 能够理解世界,还有许多工作要做。因此,专注缔造基础模型,从本质提升技术能力,是产业发展的核心。
《21财经》:数据也是产业发展不可或缺的动力,您认为当前高质量数据荒的问题应该如何解决?
王坚:数据问题的解决与建立一个真实的大模型心心相印。
以OpenAI为例,大部分ChatGPT的练习数据是互联网公开数据。技术人员开发了大模型,在使用数据训练迭代的进程中判断数据的优劣。换言之,假如不开始做模型,从业者就无法知道哪些数据真正有用。
把好的模型建起来,在运行的进程中,自然会找到适当的数据。基础模型的构建能够帮助人类完成AI“三驾马车”的考验:数据的数量和质量咋样,算力的供给够不够,算法是否足够优秀……只有在一个真实的模型中,才可以完成对这些问题的检证。
治理是法律和技术配合
《21财经》:AI发展以来,这个行业在不同层面的“路线之争”经常被人们关注和讨论。随着应用变多,有人觉得AI变得“头脑发达,四肢简单”,没有处理人类发展的真问题。您觉得 人工智能 走偏了么?
王坚:我也听过类似的说法——“ 人工智能 应该先做到替人类下矿井、检修高压线、在空中擦玻璃;而不是先能够做视频、写文章、画画。”我对此非常赞成。
可是这其实其实不是走偏,是技术发展还没到达让 人工智能 “四肢发达”的阶段。对AI当前的水平而言,让头脑发达(以GPT为代表),比让四肢灵巧容易。人类的灵巧的四肢是不断进化的结果, 机器人 短时间内可能很难实现。
至于为啥AI已经足够聪明,却还是出现“一本正经说瞎话”的情景。我认为还是基础模型能力不足,造成它没有办法真正理解世界。
《21财经》: 人工智能 ,虽然可能在您看来我们才刚刚起步。但目前在应用中已经出现了AI换脸诈骗该类问题。您在AI治理方面有何建议?
王坚:我个人认为,技术投入使用后发现问题是非常正常的,问题的出现和解决会推动产业的发展。
我倾向于相信,技术发展会造成的问题一定会被人类自己解决。不过,这其实不意味着问题会被自动解决,需要订立规则。解决AI应用引发的法律和伦理问题,需要法律和技术的协作配合。
以AI换脸诈骗为例,诈骗的成因之一,是平淡日子里对人脸数据识别的大量使用。通过技术手段加强保护,或制定规则减少使用、加大对滥用行为的责罚,可能可以有效地阻止此类情况发生。
不管怎么样,我们对此要有信心。技术引发的问题,人类定会解决,历史证明了这一点。