【Vidu】国产Sora诞生！清华团队发布Vidu大模型 - 可直接生成16秒视频

【查看信息来源】 4-28 9:46:05

【Vidu】【大模型】【Sora】

　　4月27日，在2024中关村论坛年会未来人工智能先锋论坛上，清华大学联合北京生数科技有限公司正式发布了文生视频大模型——Vidu。

　　在会议上，清华大学人工智能研究院副院长、生数科技首席科学家朱军对外展示了多段由Vidu生成的视频，单段视频最长可达16秒，并且在整个视频显现上，Vidu已经不输Sora。

　　年初，OpenAI发布的Sora惊艳了世界，也让外界对大模型的关注焦点从单模态转向多模态。而Vidu的发布，则是国内首个具备“长时长、高一致性、高动态性”等特点的视频大模型。

　　国产Sora

　　据朱军介绍，当前国内已经有视频大模型的生成视频大多在4秒左右，而Vidu可以一次性生成16秒的视频。除了在时长上的突破以外，Vidu在视频效果方面也得到明显提升。

　　好比Vidu能够生成复杂的动态镜头，不再局限于容易的推、拉、移等固定镜头，而是能够在一段画面里实现远景、近景、中景、特写等不同镜头的切换，包含直接生成长镜头、追焦、转场等效果。

　　另外，Vidu既能够模拟真实物理世界，也能够生成真实世界不存在的虚构画面。其中对于真实世界，Vidu能生成细节复杂且符合真实物理规律的场景，例如正确的光影效果、细腻的人物脸色等。

　　同时，作为国产大模型，Vidu更理解中国元素，能够生成熊猫、龙等特有的中国元素。

　　朱军表示，Vidu与Sora一样，采用的都是“一步到位”的生成方式，即视频片段从头至尾是连续生成的，在底层算法上则是基于单一模型完全端到端生成，不涉及中间的插帧和其它多步骤的处理。

　　早于DiT架构提出U-ViT

　　据朱军介绍，Vidu的快速突破源自于团队在贝叶斯机器学习和多模态大模型的长期积累和多项原创性成果。其核心技术U-ViT架构由团队于2022年9月提出，早于Sora采用的DiT架构，是全球首个Diffusion与Transformer融合的架构。

　　需要强调的是，外界熟悉的Sora、Stable Diffusion 3等模型，采用的都是Diffusion Transformer架构DiT。而所谓Diffusion Transformer是在Diffusion Model（扩散模型）中，用Transformer替换经常使用的U-Net，将Transformer的可扩展性与Diffusion模型处理视觉数据的天然优势进行融合。

　　DiT架构由伯克利团队于2022年12月发表。而生数科技在其之前提出的基于Transformer的网络架构U-ViT，两项工作在架构思路与实验路径上完全一致，均是将Transformer与扩散模型融合。

　　2023年3月，Vidu团队开源了全球首个基于U-ViT融合架构的多模态扩散模型UniDiffuser，并率先完成了U-ViT架构的大规模可扩展性验证。

　　正是有了这些长期的技术积累，Vidu团队才能够在Sora发布仅两个月后，就快速推出了自研视频大模型。

　　朱军表示，从图文任务的统一到融合视频能力，作为通用视觉模型，Vidu能够支持生成更加多样化、更长时长的视频内容，同时面向未来，灵活架构也将能够兼容更广泛的模态，进一步拓展多模态通用能力的界限。

　　生数科技是哪个？

　　作为Vidu的研发方之一，外界对于生数科技可能相对陌生。

　　生数科技建立于2023年3月，核心团队来自清华大学人工智能研究院，另外还包含来自北京大学和阿里巴巴、腾讯、字节跳动等科技公司的多位技术人才。

　　去年，生数科技完成多笔融资，投资方包含蚂蚁集团、锦秋基金等。今年3月，生数科技完成新一轮数亿元融资，由启明创投领投，达泰资本、鸿福厚德、智谱AI、老股东BV百度风投和卓源亚洲跟投。

　　目前，生数科技团队于ICML、NeurIPS、ICLR等人工智能顶会发表相关论文近30篇。在扩散模型方面，该团队的成果已涉及骨干网络、高速推理算法、大规模训练等全栈技术方向。

　　另外虽然成立时间不长，但生数科技已经开始推进大模型的商业化落地。一是以API的形式向B端机构直接提供模型能力，另一方面缔造垂类应用产品，根据订阅等形式收费。

　　直到今天，生数科技已与多家游戏公司、个人终端厂商、互联网平台等B端机构开展合作，同时，生数科技也于去年上线两款工具产品，分别是视觉创意设计平台PixWeaver金额3D资产建立工具VoxCraft。

● 相关商业动态

【大模型】小米公司年底裁员3500人？最新回应！

【人工智能】朱光耀 - 2025世界和平与发展面临五大挑战

【大模型】万字专访谭待 - 火山引擎从不赔钱换市场给豆包大模型打80分

【大模型】机构密集调研豆包概念股！龙头12天7板，近两个月接待量居前热门股名单来了

【图森未来】对话-自动驾驶第一股-有关清算、盈利和控制权，图森未来CEO这样说……

【大模型】30亿元！智谱完成新一轮融资大模型-六小龙-年内累计吸金超200亿元

【人工智能】打造粤语语料库，让AI赋能广府文化

【人工智能】Sora-迟到-10个月后正式开放，国产多款AI视频大模型涌现

【大模型】大模型已进入应用阶段专家 - 算法脆弱性等问题仍待解

【大模型】马上消费推出金融大模型-天镜-2.0 ！AI能力创造新增长动能

● 相关商业热点

【大模型】【小米公司】【人工智能】【2024】【云计算】【火山引擎】【机构调研】【概念股】【图森未来】【Ruyi】【CEO】【自动驾驶第一股】【控制权】【百川智能】【六小龙】【语料库】【联想集团】【中国科技产业】【Sora】【机器学习】【张小松】【脆弱性】【金融行业】

(Top) 返回顶端

商业洞察

【Vidu】国产Sora诞生！清华团队发布Vidu大模型 - 可直接生成16秒视频

上一篇：问界M7起火司乘3人遇难车企回应：已成立专项小组正配合调查

下一篇：国网信通发布2023年ESG报告：持续深化能源数智化服务能力为数字中国建设全面赋能

商业洞察

【Vidu】国产Sora诞生！清华团队发布Vidu大模型 - 可直接生成16秒视频

上一篇：问界M7起火司乘3人遇难 车企回应：已成立专项小组 正配合调查

下一篇：国网信通发布2023年ESG报告：持续深化能源数智化服务能力 为数字中国建设全面赋能

上一篇：问界M7起火司乘3人遇难车企回应：已成立专项小组正配合调查

下一篇：国网信通发布2023年ESG报告：持续深化能源数智化服务能力为数字中国建设全面赋能