安大互联
财经热点 > 财经资讯 > OpenAI官宣推出多模态ChatGPT - 能看、能听、还会说
【ChatGPT】OpenAI官宣推出多模态ChatGPT - 能看、能听、还会说
浏览次数:【633】  发布日期:2023-9-26 1:18:39    文章分类:财经资讯   
专题:ChatGPT】 【OpenAI】 【Plus】 【DALL
 

  北京时间周一晚间, 人工智能 领域的知名创业公司OpenAI发布题为《ChatGPT现在能看、能听、能说》的公告,宣布将在未来两周时间里向付费用户推送这项功能。

  在今年3月GPT-4的发布会上,最令人感到震惊的一幕应该是,OpenAI总裁Greg Brockman拿着一张草稿纸画了个草图,随手拍了张照就让GPT-4在10秒钟时间里生成了这个网站的代码。 image

(来源:OpenAI)

  ChatGPT此前曾推出过能上传图片的“代码解释器”功能,具备了一点初步处理图像和文本相片的能力。但毫无疑问,今天这个“随手拍、随心问”才更贴近大多数用户的AI助手使用场景。

  拍张冰箱相片告诉你今晚吃啥

  根据标题的顺序,今天更新的功能主要有两点:基于图片的对话,和实时语音对话。

  先说关注度特别高的图片聊天功能。根据OpenAI的说法,用户现在可以拍一张冰箱的相片,然后让ChatGPT来推荐菜谱;在旅行时拍摄一张地标的相片,让ChatGPT来讲述这处景点的有趣之处。当然,也能拍一张数学题的相片,让ChatGPT来解答。

  在官方给出的案例中,给到ChatGPT一张自行车的相片,问它如何把座椅调低。然后ChatGPT表示看你车的型号,有的车有快拆杆,有的是用螺栓固定,然后给出了详细的步骤。 image

  随后官方装作不懂,拍了一张螺栓的相片,并用官方画图工具圈出来以示强调,然后问ChatGPT这是不是快拆杆。ChatGPT表示你这个是螺栓,得去找一个内六角扳手。 image

  随后官方又拍了一张工具箱的相片,问ChatGPT究竟是哪一个扳手。ChatGPT也顺畅地认出了扳手,并准确提示用户到底要拿哪一个尺寸。 image

  ChatGPT会说话啦!

  除此之外,OpenAI也将语音识别、转录和音频生成功能打包,推出了AI语音聊天的功能,这项功能只适用于iOS和安卓客户端。官方表示,用户可以用这项功能为家里的小孩讲睡前故事。或家里吃着饭,突然为某个问题吵起架来,这个时候就可以把ChatGPT拍在桌面上解决争论。 image

  OpenAI介绍称,这项功能使用了Whisper开源语音识别系统,将用户说的话转录成文本。同时还用上了一项新的文本转语音模型,并与专业配音演员合作,提供5种可供用户自行选择的声音。

  更顶尖的AI也有新的危险和局限性

  OpenAI表示,新的语音技术能够仅通过几秒钟的真实语音创造出真切的合成声音。这种功能打开了创造力的大门,也造成了新的危险——例如非法分子可能伪造公众人物进行欺诈。所以OpenAI的决策是通过“语音聊天”这样的特定用例来推出这项功能。

  同时OpenAI也在与更多的机构展开合作。例如流媒体公司Spotify就在试用这项功能来进行语音翻译,通过使用播客主持人的声音将播客音频翻译成其它语言,帮助播客主持人扩大他们的全球影响力。

  图像也会造成新的挑战,例如幻觉问题,和使用者在高风险领域却依赖模型对图像的解释。因此在上线前,OpenAI也对极端主义和科学能力等领域进行了风险测试。

  另外对看到这篇文章的中文读者而言,图片对话的体验大概率值得向往,但语音对话可能要打一些折扣。OpenAI表示,该模型擅长转录英文文本,但在一些其它语言,尤其是那些使用非罗马字母的语言中表现欠安,建议非英语用户不要使用ChatGPT来进行此类用途。

手机扫码浏览该文章
 ● 相关资讯推荐
2024-9-20【通信设备】中东火药桶临近引爆点 OpenAI新一轮融资已接近完成 - 环球市场
2024-9-15【帕萨特】一周新车盘点 - 上汽大众帕萨特正式换代 奇瑞瑞虎8 PLUS外形微调
2024-9-13【OpenAI】AI新时代揭幕!会-思考解题逻辑-的OpenAI推理大模型登场
2024-9-10【格灵深瞳】视觉模型底座超越OpenAI,格灵深瞳开启多模态落地的Scaling - Law
2024-9-8【英伟达】AI周报-xAI上线全球最大AI训练集群;谷歌高管警告称AI未必能影响生产力
2024-9-1【英伟达】AI周报 -英伟达、苹果与微软或联手投资 OpenAI;米哈游创始人建议普通游戏开发者转行
 ● 相关资讯专题
通信设备】  【黎巴嫩】  【OpenAI】  【帕萨特】  【SUV】  【PLUS】  【上汽大众】  【GPT】  【大模型】  【思考解题逻辑】  【格灵深瞳】  【多模态】  【英伟达】  【xAI】  【生产力】  【创始人】 
  • 网络建设业务咨询

   TEl:13626712526