安大互联
财经热点 > 财经资讯 > 快手AI文生视频大模型体验 - 更偏商业端,-国产版Sora- 来了?
【大模型】快手AI文生视频大模型体验 - 更偏商业端,-国产版Sora- 来了?
浏览次数:【255】  发布日期:2024-6-21 22:38:20    文章分类:财经资讯   
专题:大模型】 【Sora】 【国产版Sora
 


K图 01024_0

  财联社6月21日讯(记者唐植潇),中国版SORA来了?

  目前,快手推出视频生成大模型——可灵,支持文生视频、图生视频和视频续写功能。

  财联社记者了解到,可灵大模型基于Diffusion Transformer架构缔造的文本视频语义理解能力,支持输出1080P30帧最长2分钟的视频,生成时长直接赶超Sora。

  6月21日,可灵上线的视频续写功能中,支持对已生成的视频一键续写和连续屡次续写,单次可让视频延续约5秒,最长可生成约3分钟视频。

  快手可灵的内测申请在快手的剪辑软件快影App的“AI创作”功能模块中,财联社记者申请通过后,进行了深入的体验。

  目前可灵的生成速度上表现尚可,财联社记者每次文生5s视频基本都能在2–3分钟之内完成。根据公开信息,快手、Sora之外,Luma AI发布了文生成图模型Dream Machine,并开启内测;Adobe的Firefly新增生成式扩展功能,生成音频和视频功能即将推出;美图构建AI短片工作流,开发了AI短片创作工具MOKI,预计将于今年7月31日上线。

  有研究机构指出,在现今AI大模型的输出内容不能完全保证正确性与精准度的环境下,对“幻觉”问题不敏感的文生文、文生图、文生视频、数字人等AIGC领域有望率先实现商业化落地。

  文生视频更自然,图生视频仍有进步空间为了展示可灵AI的能力,财联社记者从对于语言的识别精准水平、视频表现精度这两个方面对可灵大模型进行测试。其中在精度层面上,主要从两个方面上进行考虑,首先是光影效果的显现,其次是物体关系(如人与人互动,人与物体互动)等。

  为了便于观看,财联社记者将视频转化成了动图,因此会对视频质量和帧数造成一定的影响,但基本能够展现可灵的视频生成能力。

  首先是对文字识别和处理层面上,财联社记者尝试详细描述了一个场景:“满头白发的中年女人,穿戴深蓝色西服,向一台佳能相机展示白色瓶身绿色瓶盖的蓝月亮洗衣液,背景是沙滩与海洋的落日场景。”

  可灵基本按需复现了描述文字的切实需求,只是文字描述中的相机并未出现在视频画面中,和可能是出于版权争议方面的考虑,洗手液的品牌被涂上了马赛克。

  接着记者又尝试了更为简短的描述:“一只比熊犬穿戴宇航服和高跟鞋在夜店跳舞。”

  虽然比熊犬身上的服装与真实的宇航服尚有不同,但这次的还原度要高很多。

  接着,财联社记者又描述了两个场景,以测试可灵的光影展现效果,和对于物体关系的还原的水平。

  以上的视频描述文本为:“在灯光复杂的深海隧道中,一辆银白色引擎盖加上黑色外观的迈巴赫,开着远光灯,以时速120公里每小时行驶过一摊积水,水花四溅到镜头上。”

  以上视频的描述文本为:“荒芜的去世星球上,一群假面骑士通过光剑进行对战,并砍下了对方的头盔。”

  以上视频的描述文本为:“两个壮汉在水立方里互扇巴掌。”

  以上视频的描述文本为:“小猫送外卖,抽象风格,把披萨送到人手上。”

  以上视频的描述文本为:“小猫用前爪把头上的头盔脱下来,放入到电动车的前框里。”

  以上视频的描述文本为:“一个小女孩吃面条”。

  以上视频的描述文本为:“女性推着自行车,往后倒退,一片樱花花瓣落到她的头上。”

  目前图生视频的功能更多是让画面主体运动起来,通过准确的关键词做动作,但复杂的物体互动,显现效果欠安。

  如小猫咪用前爪脱下头盔,AI并未正确识别图中猫咪的前爪,而是生成了另外的前爪,并且没有脱下头盔的动作,而是将生成的前爪搭在了前框里的头盔上。

  小女孩吃面条基本生成了“吃播”效果,五官与食物清晰。

  而女子推车倒退变成了骑车倒退,虽然动作方向正确,但花瓣只落到了镜头的前方,并未落到女子的头上。

  通过上述的测试,我们基本可以推断出以下几个结论:

  可灵对于光影关系,流体与人物的关系显现大致上是没啥问题的,在文生视频的准确度上与sora不同不大。好比,当灯光扫过车顶时,前挡风与引擎盖金属反光变化的不同;车辆驶过积水时溅起的水花等。

  可灵对于物体关系的处理仍存在改进的空间。好比决斗时光剑出现了“穿模”的情景。

  另外,可灵基本可以做到符合真实的运动规律。在测试中,车辆行驶、女生吃东西等基本符合现实规律与关键词输入要求。

  对于有关键词未被识别的问题,有观点认为,造成这种问题的原因在于,目前视频生成大模型基本是直接从视频数据中学习物理知识,但真实视频往往包含很多信息,因此大模型很难精准区分每个物理规律并学习。

  财联社记者了解到,快手大模型团队自研了3D VAE网络和全注意力机制(3D Attention),借助多模态技术更好地实现时空建模。

  快手视觉生成与互动中心责任人万鹏飞公开表示:“快手是一个拥有海量视频数据的平台,可实现全流程、自动化、高效率的支持模型的练习和评估。”

  他还补充道,快手拥有多维度视频标签体系,可精细化的筛选数据,或对数据的分布进行调整。

  商用可能性到底在哪?落地场景或更偏商业端据财联社记者了解,目前可灵内测申请人数已超14万人,有很多创作者都在其中。

  有视频内容创作者对财联社记者表示,使用AI工具生成的视频看上去很酷,但该类工具在普通人手中意义微乎其微。AI生成视频的成本也不低,这一点从ChatGPT和Sora的开放水平就能看出来,ChatGPT可以开放给亿级用户,而Sora直到今天只有少数人试过。

  不过,部分视频平台也不鼓励AI合成内容,该类视频分到的流量不多,有的甚至会被限流。目前,各大内容平台都有相关限制,AI生成内容均会标注 “作品疑似AI合成,请谨慎甄别”。

  该名内容创作者补充道,AI视频生成功能的真正意义在于简化了视频制作流程,既可以助推成熟的内容创造者生成无版权纠纷的素材,加速内容创作,也可以助推以往的图文创造者基于已经有内容视频化,加速内容迁移。

  他认为,通过精准描述,内容创作者可以省下挑选合适素材的时间。本身职业内容创作者也会自己购买视频素材,或开通相应的VIP会员。现在唯一的问题只在于,收费是否合理。

  但从长远来看,不管可灵还是sora都不会将C端应用作为未来主要发展方向,根据场景应用落地的能力,才更具想象力。

  另一位影视行业的从业者告诉财联社记者,AIGC工具已经被应用在了影视行业了,好比《瞬息全宇宙》里面主角高速穿越多个宇宙的镜头,可以用AI技术快速生成出来,能够降低制作成本。“如果使用传统制作流程,哪怕只是为了制作一分钟的视频,也需要一个庞大的团队工作好几个月才能完成,涉及到脚本、建模和后期渲染等多个过程。”

  财联社记者了解到,有部分电影人在接受Luma发布的Dream Machine内测邀约后,使用该款AI工具制作了一点微电影和预告影片。继生成短剧剧本之后,AI视频生成工具将有可能被用于直接生成短剧,而这一尝试也会让短剧赛道的链路更短。

  当下,可灵在B端的商用还未开启,但从此前AIGC技术应用来看,短视频切片、评论区互动、数字人主播等均是内容电商可以落地的场景。

  据了解,包含京东、快手、抖音在内的电商平台已经使用AI大模型辅助商家进行运营。好比京东免费数字人代播服务,能24小时不断进行直播;快手的“AI脚本生成+智能高光切片+全模态检索大模型”功能...。

  快手方面提供的数据显示,AIGC技术的应用已经开始提升营销转化效率,通过盘古视频AIGC素材整体提升营销转化率33%。

  有业内人认为,未来文生视频工具也有可能存在被商家应用在产品功能、场景短视频展示上面。“相较于对每个产品进行实际拍摄,直接使用AI工具生成视频的时间成本和人力成本可能会更低。”

  对成本端的影响,也能从当前数字人主播应用效果得出一定结果。快手磁力引擎项目招商责任人、磁力学校责任人王思洵分享了一组数据:“在尽量过滤掉干扰项的条件下,我们测试发现真人直播间和数字人直播间数据表现几乎一样。AIGC技术自动生成直播/短视频素材,使得企业的直播风险可控,运营效率也得到了提升。”

   天风证券 分析师认为,生成式AI在视频创作和世界模型的大踏步进步将实现对视频/3D/游戏等下游应用场景的渗透。在短视频、创作工具、游戏等下游领域,可灵、Sora等AI原生产品有望融入工作流,增强用户体验、降低用户使用壁垒、进一步降低创作成本,并极大拓展创作者能力界限。

  该名证券分析师补充道:“与OpenAI其它产品不同,Sora代表的DiT架构路径复刻难度在算力充分的条件下相对较低,国内互联网头部大厂在生成式视频工具上的布局速度可能会持续超预期。”

手机扫码浏览该文章
 ● 相关资讯推荐
2024-7-3【智能座舱】将大模型应用到AI智能座舱会怎样?理想汽车 - 也许会越来越像你
2024-7-2【大模型】微众银行 - 积极探索AI前沿技术应用于金融领域的多样化可能性
2024-7-2【大模型】-巢燧-大模型基准综合评测 - 多个大模型中文能力超过GPT-3.5
2024-7-2【人工智能】聚焦大模型时代AI前沿与金融应用 - 微众媒体学院北京开讲
2024-7-2【大模型】大模型技术金融应用中三大挑战显现 - 如何破?
2024-7-1【大模型】押注万亿新赛道 - 互联网巨头暗战AI硬件
2024-7-1【金山办公】金山办公 -股价-会受到上周五WPS系统崩溃影响 国内大模型未-套壳-OpenAI
2024-7-1【金山办公】盘中跌超9% 金山办公 -股价-会受到上周五WPS系统崩溃影响 国内大模型未-套壳-OpenAI
2024-7-1【金山办公】盘中逼近跌停,金山办公 -股价-会受到上周五WPS系统崩溃影响,国内大模型未-套壳-OpenAI
2024-6-30【大模型】大模型市场洗牌-价格战-开打 头部企业以-深耕行业+出海-尝试破局
 ● 相关资讯专题
智能座舱】  【大模型】  【理想汽车】  【越来越】  【微众银行】  【人工智能】  【金融服务】  【综合标准化】  【2024】  【科大讯飞】  【互联网】  【金山办公】  【OpenAI】  【WPS】  【API】  【周鸿祎】  【价格战】 
  • 网络建设业务咨询

   TEl:13626712526