“我更关心的是Sora到底会对我有啥影响?”在文本生成视频模型Sora持续火爆的龙年开工第壹周里,短视频行业创业人士吴灵(化名)提出了这个问题,显然这一问题也代表了更大范围内社会公众的疑惑。
Sora是OpenAI于北京时间2月16日凌晨发布的文本生成视频的 人工智能 模型,甫一亮相就成为刷爆科技圈的热点话题,“王炸”“推翻”等词语高频地出现在社交媒体对Sora的描述中,甚至直到本文发稿之时,尽管Sora尚未开放接口,围绕Sora的讨论热度仍然居高不下。英伟达顶级科学家Jim Fan称Sora是视频生成领域的“GPT-3时刻”,360集团老总周鸿祎则认为随着Sora出现,人类实现AGI(通用 人工智能 )的时间从十年、20年可能缩减至一两年。 特斯拉 总裁埃隆·马斯克称:“人类认赌服输,但AI增强的人类将创造出最好的作品。”而图灵奖获得者、Meta首席科学家Yann LeCun则对Sora的生成式技术路线提出了疑问。
喧嚣之下,如果抛开各种溢美之词与技术路线的争议,社会公众或许更想了解的是Sora和由此引发的技术迭代升级,到底对个人有啥用?一如2023年的ChatGPT,它将如何改变个人的生活与工作?基于此,《中国经营报》记者采访了数位相关领域的从业者及第叁方专家,试图针对社会公众的疑惑提供初步的思路与阐释。
震撼背后:视频生产力的突破
“输入一段文本,生成一个视频,这个功能其实不新鲜,当下包含内容社区、短视频平台等基本上所有的社交媒体都标配了一键文生视频的功能。”吴灵在持续从事短视频内容输出的工作中,对各类流行的视频剪辑工具的各种功能已熟稔于心。
吴灵向记者做了一个非常容易的演示:假如一个新手要做一个科普视频,自己写好文案,抑或借助ChatGPT之类文本生成工具来做好文案,然后打开剪映这些经常使用的视频剪辑工具,输入文案即可一键生成一段视频作品。在演示中生成的这段视频,乍看之下与文案内容其实不明显违和,但细看之下仍然存在很多问题,部分视频画面与文案只能说是一个“约”化的显现,好比:演示文案中提到“脑机接口侵入式手术”,生成画面里显现的却是一个口腔检查的场景;文案中提到了一本古代书籍,画面显现的则是一本封面破旧的、其实不相关的另一本书...。吴灵透露,这些由AI生成文案、图片甚至视频的工具目前还只能是一个辅助或启发灵感的角色,优质的作品生产仍较大水平上依赖人工。
在Sora发布后,吴灵第壹时间观看了OpenAI的官方介绍及视频案例,根据OpenAI的官方介绍,Sora只需一段一般的文本就能自动生成高度真切、高清质量的视频,且时长突破60秒。他和很多科技圈人士都表示“震撼”,一是震惊于OpenAI的动作之快,仅仅一年有余的时间里,在抛出了文本生成大模型ChatGPT、图像大模型DALL·E等之后,又在视频生成领域实现了突破,进一步验证AI生成技术路线的可行性。另一方面的震撼源于自身的职业发展焦虑,一如ChatGPT面市之初席卷全球的普遍性职业焦虑——“AI会取代我的工作么?”当Sora出现后,这种普遍性的“职业焦虑”进一步加深。当然,吴灵也指出,不管对于短视频创作者,还是其它各个行业领域的从业者,要缓解焦虑的要领就是要探索新技术、新工具如何“为我所用”。在他看来,2023年ChatGPT火热,带动了国内出现各类大模型涌现,“类似的剧本今年可能仍会上演。”中国版的Sora或许已然在酝酿发力。
提供视频生成工具“一帧秒创”应用的新壹科技一位责任人向记者介绍,目前有一定应用规模的视频生成工具最多支持4秒视频生成,视频AI生成仍属于“素材级别”,一个完整的视频作品往往需要几十个素材构成,视频AI生成工具解决的是通过已经有素材、AI素材的组合完成作品级的视频生成。Sora将视频生成的时长突破至1分钟,而且释放出的试用效果已超出了市场上的已经有产品。
当被问及“Sora是否会造成行业性的推翻与冲击”时,新壹科技上述责任人则提供了另外一个思考视角,视频生成技术的进步对于AIGC(AI生成内容)领域来说是一个利好事件:一方面可以降低对于素材的依赖,另一方面能提升生成效果,视频内容生产的门槛有望进一步降低。
未来展望:通向AGI之路
截至2024年2月22日,国内已经有数十家券商发布了超百份关于Sora的研报,记者综合各家研报及科技圈内知名人士的公开讲话梳理总结后发现,Sora模型的亮点大致表现在以下几个要点:一是对自然语言的领会水平明显增强;二是效果上高真切、具有较强的理论连贯性,时长最高达到1分钟;三是多模态应用加速落地,文本到视频和图像到视频的转换能力,有望率先改变以往的视频创作、广告营销、游戏与教育等领域,激发更多高质量内容生成与流量变现,并多模态赋能医疗、安防、智能驾驶、工业等领域,具有更加广阔的想象空间。从市场竞争层面来看,与ChatGPT引发大模型争奇斗艳类似,Sora的出现势势必引发全球范围内在视频生成领域的创业投资热潮,和启发各个行业领域的关注和探索各领域的落地应用之路。
在对于Sora的讨论中,AGI经常被作为 人工智能 的“终极目标”来探讨。AGI通用 人工智能 ,其实是指拥有与人类相当甚至超过人类智能的 人工智能 状态,在预期的梦 想状态中,AGI不仅能够像人类一样拥有感知、理解、学习和推理等基础思维能力,还能在不同领域灵活运用、快速学习和创造性思考。在AI发展的数十年时间里,包含自然语言理解(NLP)、深度学习、具身 机器人 、脑机接口等等,都是在向着AGI方向迈进。
OpenAI在Sora技术报告的标题中写道,视频生成模型是“世界模拟器”。需要强调的是,尽管Sora在模拟能力方面已获得了明显的进展,但它目前仍旧存在许多局限性。中国工业合作协会仿真技术产业分会会长张霖向记者解释了视频生成模型与当下 数字孪生 、仿真技术的关联与区别。他指出,当前的Sora仍只是个视频制作工具,仿真和 数字孪生 是通过对物理世界建模认知和改造物理世界,视频动画只能反映世界表象的东西,其实不是模型的全部,类似的AI视频工具大多情境下生成的视频其实不是现实中存在的。
值得注意的是,甭管是监管层面,还是社会大众,与ChatGPT之类生成式 人工智能 模型一样,Sora及由其引领的视频生成模型爆发,在生成内容的可靠性、版权归属、隐私保护、数据治理及安全等方面都存在潜在的法律和伦理风险与挑战。对此,在通往AGI的道路上,普通大众可能需要更加警惕新技术造成的深度伪造风险及新型犯罪等诸多问题。