安大互联
财经热点 > 财经资讯 > GPT-4o凌晨炸场 -AI伴侣-触手可及,谷歌、阿里、腾讯压力山大
【GPT】GPT-4o凌晨炸场 -AI伴侣-触手可及,谷歌、阿里、腾讯压力山大
浏览次数:【676】  发布日期:2024-5-14 21:11:44    文章分类:财经资讯   
专题:GPT】 【OpenAI】 【触手可及】 【AI伴侣
 

  Sora之后,OpenAI于北京时间5月14日凌晨推出“王炸”新模型GPT-4o。“o”代表“omni”,代表“全能”。

  号称“全能”的确不假。GPT-4o不仅能够实时处理文本、音频和图像,还采用全新的语音交互模式,大幅提升人机对话的响应速度,几乎与真人对话相差无几,它还会看人脸色、讲笑话……总之,AI更像人,甚至更像一个朋友了。

  在GPT-4o的“人性”背后,大模型正进入多模态发展的新阶段。模型不再追求长文本的单一的语言对话,视觉、语音甚至情感都成为模型参数中的关键。对如今的“百模大战”而言,这一变化是危机还是商机?

“聪明快速且自然”

  作为ChatGPT的条件技术模型,GPT-4o的能力直接将影响ChatGPT的用户体验。“GPT-4o是OpenAI有史以来最好的模型,它既聪明又快速,是自然的多模态。”OpenAI 总裁山姆·奥特曼没有出现在发布会现场,但给出了一句极高的评价。

  GPT-4o有多聪明?

  根据OpenAI的发布会和官方网站披露的信息所示,GPT-4o不仅可以识别手写字体,还能解答数学方程式,甚至还能识别图像中的人物微脸色。

  根据传统基准测试,GPT-4o的性能对照GPT-4 Turbo(OpenAI去年11月发布的大模型)基本都处于优势,对照其它模型更是大幅领先。具体而言,GPT-4o在英语文本和代码上的性能与GPT-4 Turbo类似,但在非英语文本上的性能明显提高,与现有模型相比,GPT-4o在视频和音频方面表现尤为出色。

GPT-4o在基准测试中独占鳌头。

  在“高智商”的加持下,GPT-4o的反应速度跳上了新台阶。

  它最快能够在232毫秒内响应语音输入,平均响应时长约320毫秒,这大约与人类对话相当。如果对320毫秒的突破没有直观印象,无妨瞧瞧上一代模型的成绩:语音对话模式下,ChatGPT的平均响应时长为2.8秒(基于GPT-3.5)和5.4秒(基于GPT-4)。

  GPT-4o之因此这么快,离不开全新的神经网络处理流程。

  “我们现在常见的‘Siri’‘小爱同学’等语音助理,和GPT-3.5等上代大模型对语音对话的处理能力慢,至少需要三个步骤,反应时间和处理速度延迟感强。”国内某AI企业技术专家解释称,第壹步,音频转文本将人的指令转化为文本输入,第贰步,机器文本理解并输出文本,第叁部,文本转语音“说”给用户,这才完成了语音对话的流程。“这样的模式不仅慢,而且会遗漏许多语音中的信息熵值,也会影响对话的连贯性。”

  在 GPT-4o 上,OpenAI 跨文本、视觉和音频端到端地训练了一个新模型,这意味着所有输入和输出都由同一模型内处理,实现真实的多模态交互。

  高智商叠加反应快,GPT-4o还模仿了人类的情感和幽默感,更具人情味。难怪山姆·奥特曼称之为“人类级别的响应”。

  基于GPT-4o的天赋,ChatGPT不仅能实时语音对话,还能听明白用户对话的不同语气和情绪状态,还能相应生成不一样的情感表达,甚至可以要求GPT-4o唱歌,对话时几乎感受不到僵硬的AI感。

  经过OpenAI的现场展示,很多人认为,会提供情绪价值的“AI伴侣”已触手可及。

国内模型存在代际不同

  “现在主打情感陪伴的AI创业公司可以退场了。”惊讶于GPT-4o强大共情能力,很多细分AI赛道隐隐感受到了危机。

  此前,ChatGPT主要追求性能和生产力,很多创业公司错位竞争,缔造了一批“类人”AI产品,也吸引了部分用户。好比Inflection.AI的AI 机器人 Pi诞生一年就收获了百万级别的日活用户。国内大模型公司MiniMax推出一款名为Glow的虚拟聊天产品,仅四个月时间也吸引了数百万用户。

  不同于Pi等纯陪伴型的 机器人 ,GPT-4o既能当帮手,还能开玩笑的“多面手”,无形中提高了AI的创业门槛。

  “GPT-4o使得市场对AI产品的期望值大幅提高,创业公司需要投入更多资源来开发和优化其AI模型。”上海 人工智能 行业协会秘书长钟俊浩表示,如 OpenAI、谷歌、苹果等大公司,能够更快地推出高性能AI模型,造成市场资源向这些大公司集中,草创公司难以获取充分的市场份额和投资。

  不仅是创业公司,国内的AI巨头的压力也不小。

  目前,国内AI在多模态模型训练方面主要采用图像和文字联合训练,语音则是通过单独的模型进行处理并拆解完成的上下游任务。与GPT-4o高度拟人化的多模态联合训练相比,仍存在代际差距。

  “据我了解,目前,国内如上海 人工智能 实验室、字节跳动、阿里和Minimax等企业也在进行类似的多模态联合训练研究,但很难说已经有能够匹敌GPT-4o的产品。”不过,他同时也表示出乐观,凭借国内巨头研发能力,追赶GPT-4o其实不是高不可攀,在国内算力基础设施日益完善的条件下,“平替”产品的研发周期会大幅缩短。

  据记者了解,商汤近期推出了商量拟人大模型“SenseChat-Character”,支持个性化角色建立与定制、知识库构建、长对话记忆、多人群聊等功能,可实现行业可靠的角色对话、人设及剧情推动能力,可以广泛应用于情感陪伴、影视动漫IP角色、明星网红AI分身、语言角色饰演游戏等拟人对话场景。

多模态交互是大势所趋

  “大模型发展一年以来,能力快速上升的同时,发展趋势也更加清晰。”阿里云首席技术官周靖人认为,从单一语言模型到多模态混同发展是大势所趋。

  多模态模型,通常指能同时处理和整合多种类型数据(如文本、图像、声音等)的大模型,GPT-4o的横空出世便是多模态模型的集大成。

  国内也在争取抓住多模态的东风,也获得了斐然的成绩。

  据第叁方统计,2023年,国内多模态AI概念股研发支出合计达到327.53亿元人民币,占营业收入比例为11.2%,这一比例是同期A股整体水平的4.46倍。 云从科技-UW格灵深瞳阿尔特 虹软科技 4只概念股研发支出占营业收入比超过50%,相当于拿出超一半的营业收入投入研发。

  5月9日,阿里云发布的通义千问2.5,其多模态模型已初具影响力,如视觉理解模型Qwen-VL-Max在多个多模态标准测试中超越Gemini Ultra和GPT-4V,目前已在多家企业落地应用。当前,通义已发展出文生图、智能编码、文档解析、音视频理解等能力。  

  14日,腾讯也宣布旗下混元文生图大模型全面升级,升级后采用了与Sora一致的DiT架构,不仅可支持文生图,也可作为视频等多模态视觉生成的条件。评测数据显示,混元文生图模型整体能力属于国际领先水平。

  作为OpenAI的春季升级产品,GPT-4o在多模态上的出色表现,更让业界对即将到来的GPT-5发生浓厚兴趣。

  钟俊浩预计,GPT-5在多模态的条件上将进一步强化多模态交互中的表现,不仅能够处理文本,还能通过摄像头、麦克风等设备直接与现实环境互动。例如,通过摄像头识别物体并执行相应的指令,这将大大提升AI在现实场景中的实用性和交互体验。同时,GPT-5还可与第叁方凭他无缝整合,例如 智能家居 设备及办公系统等,以扩展其应用场景。

  这也给AI创业公司造成了新商机。“创业公司无妨利用OpenAI提供的API(编程接口)来加强其产品功能,在垂直领域找到与科技巨头的互补点,或针对特定行业或用户需求,开发定制化解决方案。”钟俊浩建议。

手机扫码浏览该文章
 ● 相关资讯推荐
2024-7-7【大模型】无限光年漆远 - AI大模型在行业落地需要更加可信
2024-7-6【大模型】2024 WAIC - 容犀智能大模型应用升级发布 金融场景现新业态
2024-7-6【大模型】人工智能大会深观察 - 大模型应该如何卷应用?开源闭源谁更有未来?
2024-7-6【人形机器人】去年人人谈论ChatGPT 今年人形机器人迅速火热 -像人样-才是最佳路径?
2024-7-5【大模型】2024WAIC热议大模型与高质量数据供给 - 蚂蚁集团推出大模型密算平台
2024-7-5【农业银行】小-域-大爱 让-暖-触手可及 农业银行升级推出-农情暖域+-服务模式
2024-7-4【大模型】中国科协创新战略研究院调研三六零 - 强调应重视大模型安全问题
2024-7-4【金科服务】230余个小区持续焕新,重庆百万-金粉-说美好家园触手可及
2024-7-3【人工智能】OpenAI - CEO奥尔特曼称AGI会让全球GDP翻倍、理解前董事会的焦虑
2024-7-3【大模型】三六零免费发放1万张AI月卡-体验券- 周鸿祎 - 拥抱大模型要找到-明星场景-
 ● 相关资讯专题
大模型】  【周鸿祎】  【OpenAI】  【人工智能】  【人形机器人】  【特斯拉】  【优必选】  【Figure】  【ChatGPT】  【蚂蚁集团】  【农业银行】  【净利润】  【2023】  【农情暖域+】  【研究院】  【金科服务】  【触手可及】  【董事会】  【明星场景】 
  • 网络建设业务咨询

   TEl:13626712526