【GPT】四大维度深度体验多模态性能 GPT-4o为何被称作-最强大模型-？ - 安大互联

安大互联

栏目导航

财经热点 > 财经资讯 > 四大维度深度体验多模态性能 GPT-4o为何被称作-最强大模型-？

【GPT】四大维度深度体验多模态性能 GPT-4o为何被称作-最强大模型-？

浏览次数：【281】发布日期:2024-5-18 16:40:19 文章分类：财经资讯

专题：【GPT】【OpenAI】【最强大模型】

　　去年3月，GPT-4震撼发布，距今已逾一年。尽管科技巨头如谷歌、Meta，和硅谷新贵如Mistral AI、Anthropic在那之后都争相发布了竞品大模型，但似乎直到今天还未有第贰款大模型达到与GPT-4一般横扫科技圈的力量——直到GPT-4o的诞生。

　　当地时间5月13日，OpenAI在万众期待中推出了名为GPT-4o的新一代旗舰AI模型。当日，OpenAI首席执行官阿尔特曼发推文表示，新的GPT-4o是OpenAI“有史以来最好的模型”。

　　据了解，GPT-4o支持文字、图像、语音和视频输入和输出，OpenAI承诺未来将免费让普通用户使用，同时将开放API给GPT开发者，价格直接便宜50%。目前，该模型仅开放了文本和图像功能。

　　本周，《每日经济新闻》记者从图像和文本两大层面深度体验了GPT-4o的效果，着重识图能力的测试。总体来看，GPT-4o在反应速度上有极大的提升，识图方面冠绝群雄，不仅能够准确识别图片，还能以类人的思维理解图像内容。而在长文本总结方面，与当前模型的差距其实不突出。

　　GPT-4o究竟是怎样“炼”成的？当地时间5月15日，OpenAI联合开创人之一John Schulman在接受科技播客主持人Dwarkesh Patel采访时透露，后训练是提高模型性能的关键因素。

　　GPT-4o的识图能力有多牛？四大维度深度体验

　　基于图片类型，记者将识图功能的测评分为4大维度，分别为普通图像、特定专业领域的图像、数据图像和手写图像。

　　一、普通图像识别

　　（1）内容较为单一的图像

　　记者首先选取了一张波士顿动力机器人跨越障碍物的图像，内容较为简单，图上无文字，随后要求大模型仔细识图并描绘内容。GPT-4o非常出色地完成了任务，细节描述无可匹敌，准确无误地识别了机器人的运动状态、地面障碍等丰富细节。

　　图片来源：GPT-4o

　　（2）内容较为复杂的漫画

　　接着，记者选取了由多个图像组成、内容较为复杂的漫画。GPT-4o可以完整地总结出每一格漫画的内容，并以准确的顺序进行讲述。更令人受惊的是，GPT-4o完全以类人的思维解构了漫画的理论，它能够理解这是一种“拟人和夸张的策略”，并准确理解了漫画的幽默感。

　　图片来源：GPT-4o

　　二、特定专业领域的图像

　　（1）医学领域

　　记者准备了一张mRNA疫苗工作原理图，图像并未直接说明这是一张疫苗工作原理图，但图上写有相应文字，例如“刺突蛋白”、“蛋白质翻译”和“脂质纳米颗粒”等术语。

　　GPT-4o的表现惊艳，不仅准确识别了该图的主旨内容，并依据图示上的过程用通俗的语言解释了mRNA疫苗的工作原理。

　　图片来源：GPT-4o

　　（2）房地产领域

　　接着，记者选取了一张建筑面积134平方的户型图，让大模型识图并总结户型优劣势。GPT-4o显现了总体令人较为满意的结果，该模型不仅能识别户型基本情况，分辨出“半赠送”的建筑面，也能够清楚地总结户型的优劣势，但在数据准确性上有待提高。

图片来源：GPT-4o

　　三、数据图像的分析和转换

　　在此维度下，记者选取了一张折柱混合数据图。GPT-4o能够准确地识别数据图上的信息，并按要求以图表的形式重新显现，准确率高达100%。

图片来源：GPT-4o

　　四、手写指令和逻辑推理

　　最后，记者上了点难度，用手写的理论推理题来测试了GPT-4o的识图和逻辑推理能力。GPT-4o的回答堪称完美，不仅准确识别了手写体文字并遵照指示，且答题逻辑完全合理，也最终给出了正确答案。

图片来源：GPT-4o

　　除了识图功能之外，记者也从文本层面对GPT-4o的长文本总结功能进行了测评。记者选取了一篇近万字的调查稿件，让其总结要点。GPT-4o不负众望地完成了任务。

图片来源：GPT-4o

　　GPT-4o是怎样“炼”成的？后训练功不可没

　　从前述体验看，GPT-4o的反应速度和多模态能力令人印象深刻。OpenAI首席执行官阿尔特曼直言，新的GPT-4o是OpenAI“有史以来最好的模型”。

　　那么，GPT-4o的多模态能力是怎样“炼”成的呢？这背后的秘密或许可以从OpenAI联合开创人John Schulman当地时间5月15日与科技播客主持人Dwarkesh Patel的对话中一窥到底。

　　John Schulman在采访中提到，后训练（Post-Training）是提高模型性能的可靠方法，通过额外的练习和微调可以明显提高模型的能力。

　　在这里需要区分两个重要的概念，在大模型训练中通常会提到“预训练”、“后训练”等术语。预训练常在大规模的数据集上进行（通常是让模仿互联网上的内容），目标是通过在较大的任务上训练模型，使得模型学习到通用的特征。

　　而后训练指的是专注针对特定行为优化模型，在预训练模型的条件上，使用额外的大规模未标注语料库继续训练模型参数，这个过程可以进一步丰富模型对语言的领会和生成能力，使其获得更广泛的知识。

　　根据John Schulman的说法，后训练是GPT-4模型不断升级的关键因素。据了解，当前 GPT-4 的 Elo分数（编者注：一种大模型基准评级标准）比最初发布的版本高出了大约 100 分，而这种改进大部分都是由后训练造成的。

　　他同时暗示，在未来用于训练的算力中，OpenAI可能将偏向后训练。他说道：“模型生成的输出质量比网上的大多数内容都要高。因此，让模型自己思考似乎更有事理，而不只是训练来模仿网络上的内容。因此，我认为从第壹性原理上而言，这是有说服力的。我们通过后训练获得了很多进步。我希望我们会继续推动这种方法，并且可能会增加投放到后训练中的计算力。”

　　针对GPT-4o强大的多模态能力，英伟达顶级研究科学家Jim Fan发表长文表示，从技术角度来审视，这需要对标记化和架构进行一些新的研究，但总体上是一个数据和系统优化问题。

　　在Jim Fan看来，GPT-4o有可能是GPT-5的一个早期训练点，但训练尚未完成。从商业角度上，他认为，“GPT-4o的定位透露出OpenAI某种不安全感，在谷歌开发者大会之前（发布GPT-4o），（意味着）OpenAI宁愿超越我们对GPT-4.5的心理预期，也不愿因为达不到对GPT-5的极高期望而令人失望。这是一个聪明的举措，可以争取更多时间。”目前，业界广传GPT-5将在年底发布。

　　Jim Fan的说法与一些业内分析不约而合。分析认为，OpenAI选择此时发布GPT-4o，是为了在竞争对手尤其是谷歌不断发起挑战的情景下，继续保持领先地位。

手机扫码浏览该文章

● 相关资讯推荐

2024-10-4【OpenAI】OpenAI又失一员猛将！Sora负责人之一宣布跳槽谷歌Deepmind

2024-10-3【OpenAI】估值1570亿美元！OpenAI完成66亿美元融资，被曝要求投资者-二选一-

2024-10-3【OpenAI】全球万亿独角兽诞生 - OpenAI剑指五大竞争对手

2024-10-3【OpenAI】史上最高！OpenAI官宣获66亿美元融资 - 估值超1500亿美元

2024-10-2【英伟达】美股三大期指小幅走低热门中概股盘前继续飙涨- 今夜看点

2024-10-1【人工智能】美股成交额前20 - 苹果涨超2% 消息称苹果不再参与OpenAI融资轮谈判

2024-9-30【OpenAI】OpenAI被曝新内幕 - 高管5月就作好倒闭准备！-宫斗-吓跑投资者苹果也不投了

2024-9-29【2024】新鲜早科技 - 消息称苹果放弃投资OpenAI；专家热议中国算力产业发展；美团再次调整业务架构

2024-9-29【iPhone】科技早报 - 苹果公司不再参与OpenAI融资轮谈判；中国联通党组成员、副总经理曹兴信接受审查调查

2024-9-28【OpenAI】蒙眼狂奔OpenAI、千夫所指奥尔特曼？

● 相关资讯专题

【OpenAI】【Sora】【负责人】【Deepmind】【投资者】【二选一】【独角兽】【人工智能】【英伟达】【ASMPT】【LGDisplay】【iPhone】【热门中概股】【亚马逊】【成交额】【阿尔特】【2024】【苹果公司】【党组成员】【奥特曼】【千夫所指】【GPT】

关于我们

关于我们

付款方式

售后服务

主机域名

信息资讯

解决方案

网站建设

业务入口

网站建设
web软件开发
LOGO设计
环境配置
网站修改
其他需求

服务支持

提交工单
提交BUG
文件柜
实名制认证
会员注册
找回密码

信息资讯

移动网站

网络建设业务咨询

TEl：13626712526