相比其它大厂,网易对大模型的发声更为“低调”,其实,在AI领域,网易一直有着自己的节奏与方向。在2024世界 人工智能 大会(WAIC)上,网易展台上,除了伏羲挖掘 机器人 外,还造成多款全新的 人工智能 产品,涵盖的领域包含了游戏、工业、教育、娱乐、美术创作,和元宇宙等。
在大会期间,网易伏羲有关责任人接受了记者的采访。网易伏羲旗下多模态智能体助手“丹青约”升级后第壹次在WAIC亮相,据了解,该产品为网易自研“易生诸相”多模态大模型的落地应用,升级后的“丹青约”可以提供图文并茂的多模交互体验。然而,在本届展会上,亦同时面对很多友商在图片生成AI应用的竞争,网易伏羲丹青约产品责任人陈天威看来,国内有许多做图文模型的团队,其遇到的问题是没有应用场景可以落地,这将造成大家不晓得该往哪个方向去做。
然而,伏羲的优势就在于网易本身就有两个很大的场景,游戏美术制作与营销素材生产。其表示,在过去两年间,丹青约团队已经积累了许多图文落地相关的探索。
另外,在技术上,伏羲团队一方面坚持自研易生诸相图文模型“丹青”。而另一方面,网易雷火游戏沉淀了大量的高质量精美图片数据集,给予了伏羲团队庞大的数据储蓄。另外,“丹青”在中文语义方面进行了深入优化,使得用户在使用模型时,即便是很口语化的表达,模型也能充分理解。这时,“丹青”模型的生成效果具有较好的国风审美。
记者现场体验“丹青约”小程序发现,只需给出一句话指令,例如“帮我戴上墨镜”“背景换成海边”“从白天变成夜晚”等,AI即可理解意图并直接生成结果。除了文本对话外,还可以在图片上精准框选需要更改的内容、反馈更改指令,通过人机协同的形式,将图片结果优化得更贴近用户需要。
至于伏羲团队为何选择在图文赛道中,更专注于多模态指令修图的能力,陈天威坦言,“改图,或说图生图,实际上就是在真实业务场景中更高频的切实需求。”其表示,“丹青”模型始终在迭代多模态交互的能力,虽然现在有许多模型可以生成很好的效果,也有灵活的可控生成能力,但其实很多人不会用。因此团队始终在做的,是去实现人机交互最原生的形式——对话。让用户直接“说出需求”,AI直接完成,从而把使用门槛降得足够低。另外,对于近期较为火热的视频生成赛道,伏羲团队认为,视频生成技术与图文生成技术其实不冲突,反而是随着视频生成技术的愈发成熟,图片生成的切实需求越来越旺盛。
服务矿山等工业场景链路智能化
在本届WAIC上,网易推出了其首个 机器人 品牌“灵动”。据介绍,这个全新的 机器人 品牌是网易伏羲团队依托于自身研发的强大工业大模型和顶尖的AOP(面向智能体编程)技术理念所缔造的。据了解,“灵动”旗下的两款核心产品:挖掘 机器人 和装载 机器人 ,已参与10多个省份的50个重点建设项目,覆盖矿山、港口、搅拌站、学校等多种应用场景。
网易做“挖掘机”在一些业内人士看来,有些“游手好闲”,对此,网易灵动技术责任人陈赢峰接受记者采访时谈及,“在游戏等娱乐行业,当中有许多技术是通用的。例如游戏里会需要控制NPC走路或做许多动作,这就跟现代的人形 机器人 控制非常类似。网易在这方面有相当丰富的数据积累。”
然而,在矿山等工业领域“落地”AI技术,并且进一步实现矿山场景整个链路的智能化,在网易看来,不管从整体行业还是企业而言,都是非常有价值。“矿山属于传统行业,尤其是一些比较艰苦的行业里面,工人的平均年龄已达到40多岁,资源开采又是作为社会运转的最基础物质保障。因此,智能化、无人化矿山是相当有意义的。”
文/广州日报新花城记者:文静
图/广州日报新花城记者:文静
广州日报新花城编辑:龙嘉丽