安大互联
财经热点 > 财经资讯 > OpenAI点燃AI魂 GPT-4o掀起端侧革命
【GPT】OpenAI点燃AI魂 GPT-4o掀起端侧革命
浏览次数:【386】  发布日期:2024-5-14 19:59:58    文章分类:财经资讯   
专题:GPT】 【OpenAI
 

  酷暑到来之前,OpenAI提前引爆了AI之夏。北京时间5月14日凌晨1点,OpenAI举行春季发布会。会上,重点推出新旗舰模型GPT-4o,和在ChatGPT中免费提供更多功能。GPT-4o在多模态交互领域启动了现象级横扫。

  人类津津有味的智能AI助手,面目逐渐清晰:除了尚未具身,无缝语音对话、精确到细节的视觉信息处理、情绪检测技术及共情能力,几乎都与真人无异。而比人类更强的是,这个AI情绪稳定,天文地理无所不知,处理问题的能力也是一流。

  业内因GPT-4o沸腾起来,盛赞一如往常,“大模型从‘呆瓜’变‘真人’,交互能力革新造成的可能是场景、用户数的几何级放大”;“OpenAI将蚕食情感类 人工智能 助手的市场,向更具情感、个性更强的 人工智能 迈进”;“要重新理解 机器视觉 、听觉了”……

  不过,喧嚣之下,也有一些客观声音,在审视OpenAI技术层面的进展。GPT-4o的广泛真实体验,能否全部达到视频演示中的极高水准,仍有待验证。

  IDC中国研究总监卢言霞告诉21世纪经济报道记者,OpenAI本次发布会的现场演示中,视频采用的还是抽帧处理技术,即Image to text,语音交互还是之前的全双工技术,只是多模态对话的过程更顺畅更自然。但的确进一步提高了类GPT产品的智能化交互能力,弱化了背后的代码,简化了交互的流程。GPT-4o不会砸掉所有语音助手的饭碗,反而是大模型在端侧的落地迎来双赢可能。

  科幻电影《Her》中所展现的图景似乎成为可能,人类距离真实的AI Agent还有多远?是否会引发新一轮的AI Agent变革?可以肯定的是,GPT-4o已经揭开AI行业变化与竞争的新篇章。

  “AI背后藏了个真人”

  GPT-4o的“o”代表“omni”,象征着全能。该模型多模态交互能力突出,能够接受文本、音频和图像的“混搭”输入,快速响应完成推理,生成文本、音频和图像的组合输出。

  音频输入层面,GPT-4o击穿了此前Siri等智能语音助手的延迟毛病,取得突破性进展。其响应速度之快,达到了人类级别,至短232毫秒,平均320毫秒。

  另外,新模型展现出对人类交流习惯的高度理解力和适应性。GPT-4o能以听起来非常自然的人类声音说话,并且发出多种语气词,表现了此前AI音频所未能达到的张力和可塑性。

  它能够接受人类交谈中的打断习惯,及时停顿并给出无缝回复,并且保持对上下文的记忆。这种自然的交互体验,让人几乎感觉不到与机器的界限。

  视频输入方面,GPT-4o可和时响应高管开启摄像头的视频需求指令,实时解决一元方程的数学计算,整个过程同样丝滑迅速。

  GPT-4o还展示出对图片信息的快速解读能力,用AI读复杂图片正在变为现实。发布会现场,桌面版ChatGPT对一张包含气温数据的图表进行了详细的分析。

  市场上已经有一部分情感型 人工智能 机器人 ,比普通 人工智能 助手更能准确识别人类情绪。然而,上述功能多停留在文本中,GPT-4o的情感检测功能则扩展至视频领域。

  发布会现场,科研人员将手机摄像头瞄准自己的脸,向GPT-4o发起了颇具挑战性的问题:“我看起来怎么样?”,GPT-4o首次回答将提问者的脸界定为“木质表面”。随后,GPT-4o在引导性提问下修正结果,准确分析出提问者的情感状态是愉悦的、笑容满面的。

  从底层技术分析,GPT-4o的先进之处在于,它革新了以往的多模型串联处理方式,能够通过单一的神经网络统一处理所有的输入和输出,甭管是文本、视觉图像还是音频信息,都能得到精准高效的解析和回应。

  在OpenAI这场仅持续28分钟的发布会后,业内对GPT-4o的评价褒贬不一,但乐观主义期待呈压倒性态势。为继续造势吸引用户和投资的目光,OpenAI官方网站也为意犹未尽的用户披露了新模型的视频演示和基础信息。

  GPT-4o的情感智能和多模态交互是OpenAI特别强调的两大竞争优势。发布会上,GPT-4o的语音与视频交互速度均接近真人,其官方网站后续披露的演示也显现了新模型讲笑话、玩游戏、催眠放松的感性功用。

  OpenAI其实不是第壹家运用情感智能技术的企业。Inflection AI发布的Pi已能成熟运用大语言模型的对话共情回复技术,实现人类“嘴替”的效果,提供沉醉式的虚拟情感陪伴。

  英伟达顶级研究科学家兼 人工智能 代理责任人Jim Fan发文赞美GPT-4o的情感能力,令人联想到 2013 年的科幻电影《Her》。这部电影讲述了人机亲密关系——遭遇离婚风波的男主角西奥多与 人工智能 系统萨曼莎成为灵魂伴侣。

  Jim Fan认为,OpenAI将蚕食Character.AI等情感类 人工智能 助手的市场,向更具情感、个性更强的 人工智能 迈进。

  GPT-4o的另一大亮点在于三手抓的多模态交互能力。音频输入层面,GPT-4o击穿了此前Siri等智能语音助手的延迟毛病,图像上则能快速分析复杂图表;视频层面新模型也有突破,可以在接打电话时准确识别通话另一方的情感。

  GPT-4o率先表态:多模态大模型融合文本、图片、音频及视频等信息,与现实世界高度契合,更贴近人类信息接收、处理和表达的自然方式。

  继发布文生视频大模型Sora后,GPT-4o有望成为迈向多模态智能体的又一座里程碑。

  巨头焦虑与端侧革命

  OpenAI的大模型库再添GPT-4o一员猛将,预示着AI Agent已至新赛点,再次拨快了人类循序渐进迈向GAI的时针。

  从技术定义来看,AI Agent是通用 人工智能 的终极目标,以大语言模型(LLM)为大脑驱动,不用人类的指挥,具有自主性,能独立思考并运行相应程序。

  市场嗅到了技术造成的机会风口,AI Agent成为科技巨头竞相追逐的前沿方向。目前,已经出现很多泛化的Agent概念产品,微软的Copilot,谷歌的Gemini都是这一队列中曾被寄予厚望的数字助手。

  如今,GPT-4o的加速推出革新了智能交互的表现。前DCCI互联网 数据中心 开创人胡延平认为,GPT-4o重新定义了 机器视觉 、听觉和摄像头的交互模式,应用爆发力不可估量。

  新技术进展为巨头们的错失恐惧又添一把火。据了解,谷歌计划在2024年I/O开发者大会上推出个性化数字助手“Pixie”,由Gemini驱动,有望整合多模态功能。

  微软也在蓄力开拓AI Agent的新场景。为了缔造个性化聊天 机器人 ,3月19日,微软已与Inflection AI达成协议,获得其核心技术授权;针对现有最接近AI Agent的Copilot,微软正努力解决如何为生成式AI提供良好提示词,为Copilot for Micorosft 365提供Prompt补全功能。

  AI Agent的爆发之年,苹果同样意图升级被诟病“古老过时”的Siri。有知情人士称,苹果或将在iOS 18中引入由ChatGPT 提供支持的聊天 机器人

  更自然、更“类人”的GPT-4o掀起的巨大波澜,不仅影响上游厂商,还将波及产业链下游的终端厂商。OpenAI此次发布会显现的新模型多基于手机端场景,为处于产业爆发前夜的AI手机产业造成新想象。

  市场上AI手机等端侧智能体的生态离不开大模型技术底座,智能终端厂家需要重新审视底层大模型能力。

  相较于单个AI应用,AI手机的优势卖点一直是人格化、记忆、感知和管理能力,跨APP交互能力。而具备情绪价值和自然交互能力的GPT-4o走入市场,要么会推翻一众AI手机,要么会让留下来的AI手机“如虎添翼”。

  卢言霞告诉21世纪经济报道记者,“GPT-4o意味着大模型在端侧的落地更进一步。短时间内,肯定是哪个的端侧交互能力强,谁就会赢得用户。在中长周期内,后来者也会奋起直追。应该说,这是端侧与AI助手的双赢,毕竟上游厂商没有精力面向每个场景做优化与工程化,还是需要产业链的协作。”

手机扫码浏览该文章
 ● 相关资讯推荐
2024-7-7【大模型】无限光年漆远 - AI大模型在行业落地需要更加可信
2024-7-6【新型工业化】这场在深中通道东侧举行的新闻发布会透露了什么重磅信号
2024-7-6【大模型】2024 WAIC - 容犀智能大模型应用升级发布 金融场景现新业态
2024-7-6【大模型】人工智能大会深观察 - 大模型应该如何卷应用?开源闭源谁更有未来?
2024-7-6【人形机器人】去年人人谈论ChatGPT 今年人形机器人迅速火热 -像人样-才是最佳路径?
2024-7-5【大模型】2024WAIC热议大模型与高质量数据供给 - 蚂蚁集团推出大模型密算平台
2024-7-4【百果园】卓郎智能董事长提议最高1亿元回购注销股份 - 聚焦新疆区域纺织服装产业蓬勃发展
2024-7-4【大模型】中国科协创新战略研究院调研三六零 - 强调应重视大模型安全问题
2024-7-3【人工智能】OpenAI - CEO奥尔特曼称AGI会让全球GDP翻倍、理解前董事会的焦虑
2024-7-3【大模型】三六零免费发放1万张AI月卡-体验券- 周鸿祎 - 拥抱大模型要找到-明星场景-
 ● 相关资讯专题
大模型】  【周鸿祎】  【OpenAI】  【新型工业化】  【发布会】  【人工智能】  【人形机器人】  【特斯拉】  【优必选】  【Figure】  【ChatGPT】  【蚂蚁集团】  【百果园】  【卓郎智能】  【纺织服装】  【研究院】  【董事会】  【明星场景】 
  • 网络建设业务咨询

   TEl:13626712526