【大模型】AI周报- 大模型测不出9.11和9.9哪个大；OpenAI发布轻量化模型GPT-4o mini

栏目导航

财经热点 > 财经资讯 > AI周报- 大模型测不出9.11和9.9哪个大；OpenAI发布轻量化模型GPT-4o mini

【大模型】AI周报- 大模型测不出9.11和9.9哪个大；OpenAI发布轻量化模型GPT-4o mini

浏览次数：【808】发布日期:2024-7-21 11:02:15 文章分类：财经资讯

　　大模型测不出9.11和9.9哪个大

　　一道小学生难度的数学题难倒了一众海内外AI大模型。9.11和9.9哪个更大？就此问题，7月17日，第壹财经记者测试了12个大模型，其中阿里通义千问、百度文心一言、Minimax和腾讯元宝答对，但ChatGPT-4o、字节豆包、月之暗面kimi、智谱清言、零一万物万知、阶跃星辰跃问、百川智能百小应、商汤商量都答错了，错法各有不同。大部分大模型在问答中都错误地比较了小数点后的数字，认为9.11大于9.9。

　　点评：失误背后，大模型数学能力较差是长期存在的问题，有行业人士认为，生成式的语言模型从设计上就更像文字思维而不是数字思维。不过，针对性的语料训练或许能在未来逐步提升模型的理科答题能力。

　　OpenAI发布轻量化模型GPT-4o mini，两年时间模型成本下降99%

　　当地时间7月18日，OpenAI发布了新款轻量级的大模型GPT-4o mini。据介绍，GPT-4o mini即日起将在问答机器人 ChatGPT中取代GPT-3.5 Turbo，企业用户则能从下周起访问GPT-4o mini。“我们预计GPT-4o mini将扩大人工智能的应用，让人工智能变得更实惠。”OpenAI官方网站文章称，GPT-4o mini的输入价格为15美分（0.15美元）/百万tokens（词元），输出价格为60美分（0.6美元）/百万tokens，比GPT-3.5 Turbo便宜60%。OpenAI称，公司还将在提高模型性能的同时继续降低成本。相比2022年的text-davinci-003型号，GPT-4o mini的成本降低了99%。

　　点评:虽然OpenAI迟迟未发布下一代模型GPT-5，但在现有能力基础上，仍在更新模型，继续推动大模型成本下降。其它大模型厂商今年也在推动模型轻量化。谷歌今年5月发布了轻量级模型Gemini 1.5 Flash。Anthropic 3月发布的Claude 3系列中，则包含轻量级的Claude 3 Haiku。参数较小的大模型今年来展现了颇高的潜力，通过加大数据量而不是加大参数量的形式训练提升性能。

　　六家大模型厂商回应大模型数字能力差的问题

　　第壹财经记者近日联系并采访了多家大模型厂商，包含阿里通义、腾讯混元团队、月之暗面Kimi、MiniMax海螺、学而思九章、网易有道等在采访中解答了大模型数学差的问题。阿里通义实验室产品经理王晓明表示，类似问题是常见的数学计算和逻辑推理问题，也是模型训练和使用的进程中研发者常进行测试的case（案例），大模型“答对”或“答错”实际上就是个概率问题。腾讯混元团队表示，大模型本身是一个概率模型，要让它在各种情境下都能稳定地解决这种数值计算或比较问题比较难。

　　点评:“9.11和9.9哪个大”对人类不难，对大模型而言，却不一定是容易回答的问题。综合回复来看，大模型厂商相关责任人提到的说法包含，大模型还没有精准掌控数字间的运算或比较规则，同时，人类对大模型的能力探索处于非常早期的阶段。多名业内人士还认为，未来需要增强底层基础模型的智能水平，并从训练数据层面和外部工具层面去解决这样的失误，最终方案可能是提升下一代模型的能力。对这种案例的发现，有助于厂商增加对大模型能力界限的了解。

　　《人工智能法案》将于8月1日在整个欧盟范围内生效

　　欧盟发布的全球首个《人工智能法案》（EU AI Act）将于8月1日在整个欧盟范围内生效，这也是迄今为止全球发布的一项最为全面的针对人工智能监管的法案。欧盟《人工智能法案》也为全球人工智能监管奠基了基础，旨在实现与《通用数据保护条例》（GDPR）相同的“布鲁塞尔效应”。根据最新的法案，违反规定的企业将被处以最高3500万欧元或最高年收入7%的行政罚款，以较高者为准。

　　点评：欧盟一直走在技术监管的最前沿。欧盟《人工智能法案》是全球首个全面的人工智能监管法案，显示了欧盟在技术监管领域的前瞻性和领导力。不过，规则也会增加企业的营运成本，上海大邦律师事务所合伙人游云庭表示， GDPR实施以来，企业的成本，尤其是合规成本是大幅上升的。预计《人工智能法案》也一样，意味着企业针对新的规定务必进行投资，并且任命专门的人员去研究合规政策，另外，处理违规通知、公开披露制度等也会增加成本。

　　七大模型参加“高考”后分数出炉：理科只能上二本

　　此前6月，上海人工智能实验室旗下司南评测体系OpenCompass发布了首个AI高考全卷评测结果，显示语数外三科加起来，AI考生最高能得303分，数学全不及格。7月17日，OpenCompass进一步发布了扩大学科范围的测评，团队对7个AI大模型进行了高考9个科目的全科目测试，这样一来也就能与高考录取分数线作比较。

　　如果AI参加高考，能被什么大学录取？OpenCompass测试发现，大模型如果参加文科考试，最好的成绩能被“录取”到一本，而参加理科考试，则最多只能被二本“录取”（以今年高考人数最多的河南省的分数线为参考）。

　　点评：从阅卷老师们的评价来看，相对于人类考生，目前大模型仍然存在较大局限性。完成阅卷后，老师们一致认为，大模型虽然对于基础知识的掌握表现出色，但在逻辑推理和知识灵活应用方面，仍然差强人意。具体而言，在作答主观题时，大模型往往无法完整理解题干，不明白代词指向，结果造成文不对题，不知所云；解答数学题时，解题过程机械且逻辑性差，对于几何题，常出现与空间逻辑相违背的推断。

　　李飞飞孵化“ 独角兽 ”，World Labs估值超10亿美元

　　7月17日，有消息称，著名华裔计算机科学家李飞飞开办的"空间智能"创企World Labs估值已经超10亿美元。该创企主要利用类似人类的视觉数据处理技术，使AI具备顶级推理能力。

　　从今年4月成立直到今天，World Labs已经进行了两轮融资，投资方包含顶级科技投资者Andreessen Horowitz和AI基金Radical Ventures。记者了解到，该企业最新一轮的融资金额可能达到约1亿美元。李飞飞、Andreessen Horowitz和Radical Ventures均未回应置评请求。

　　点评：身为一个传奇人物，李飞飞的创业动向也颇受业界关注。李飞飞在33岁成为斯坦福计算机系终身教授，44岁成为美国国家工程院院士，现任斯坦福以人为我工智能研究院（HAI）院长。计算机视觉领域标杆成果ImageNet亦是由她一手推动。其门下高徒颇多，如先后在OpenAI、特斯拉任职的Andrej Karpathy、目前在英伟达的Jim Fan等，也都是AI领域内颇具影响力的人物。

　　 AI芯片和云厂商巨头“抢购”全球AI企业

　　据企业服务数据库公司Crunchbase统计，今年上半年全球AI草创公司融资同比增长了24%至356亿美元，第贰季度是近年AI投资最多的一个季度。第壹财经记者据公开资料统计，今年英伟达已经投资或收购了很多于16家AI相关企业，其中多数融资轮次总金额过亿美元。微软投资OpenAI后，今年也参与了多轮总金额过亿美元的融资。谷歌则通过旗下多个投资平台广泛布局AI生态，参与了很多于31轮融资。这轮AI投资热潮中，活跃的身影还包含AMD、亚马逊、软银等。

　　点评:AI的火热直观体现在投资中。各大巨头投资风格偏好不完全相同，值得玩味的是，不论是英伟达、AMD这种主业为半导体硬件的厂商，还是微软、谷歌、亚马逊这种云厂商，或多或少都期待投资一些大模型厂商，云厂商对强绑定大模型草创企业的意愿更加强烈。观察今年业内最大的几笔融资，可以发现基础大模型、自动驾驶、AI数据和人形机器人是顶尖的热点。

　　英国对微软、Inflection AI交易展开反垄断调查

　　英国反垄断监管机构“竞争与市场管理局”（CMA）近日表示，该机构已经开始对微软-Inflection AI交易展开正式的反垄断调查。今年3月，微软同意向AI草创公司Inflection AI支付6.5亿美元，用于获得其AI软件的授权。另外，微软还宣布聘用Inflection AI的联合开创人Mustafa Suleyman和Karén Simonyan，和该公司的大部分员工。

　　点评：Inflection AI的估值约为40亿美元，业内人士称，微软的表现相当于低价、变相吞并Inflection AI。与收购不一样的是，Inflection AI仍然保存其专有的技术。除了英国，上个月还有报道称，美国联邦贸易委员会（FTC）也正在对这一交易进行审查。报道称，FTC已向微软和Inflection AI发出传票，要求提供过去两年的相关文件。

　　人形机器人公司逐际动力完成A轮融资

　　7月15日，第壹财经记者获悉，通用人形机器人草创公司逐际动力完成A轮融资，领投方为招商局创投、上汽集团旗下私募股权投资平台尚颀资本，老股东峰瑞资本、绿洲资本和明势资本跟投，融资额还未披露。此前，阿里也投资了逐际动力。逐际动力建立于2022年，开创人张巍是南方科技大学长聘教授，逐际动力旗下产品包含全尺寸人形机器人、四足机器人、双足机器人及相关解决方案。

　　点评:多家人形机器人公司还在融资进程中。今年来，人形机器人赛道融资事件不断。今年1月，星动纪元宣布完成过亿元天使轮融资，随后，宇树科技宣布完成10亿元B2轮融资，开普勒探索机器人完成天使轮融资，银河通用机器人完成7亿元天使轮融资。互联网大厂腾讯、百度、阿里分别投资了优必选、智元机器人、逐际动力，美团则投资了银河通用机器人、宇树机器人。人形机器人企业纷纷融资后，下一步的看点是怎样量产落地。

　　英伟达联合Mistral AI发布大模型Mistral-NeMo

　　7月19日消息，英伟达联合法国草创公司Mistral AI发布Mistral-NeMo AI大语言模型，拥有120亿个参数，上下文窗口（AI模型一次能够处理的最大Token数量）为12.8万个token。Mistral-NeMo AI大模型主要面向企业环境，不用使用大量云资源的情景下，实施人工智能解决方案。

　　点评:Mistral AI今年已完成6亿欧元融资，投资者名单中包含英伟达、三星。微软此前也宣布向Mistral AI投资1500万欧元，这笔资金将在Mistral AI的下一轮融资中转换为股权。Mistral AI已与英伟达合作推出大模型，该公司还将在各大巨头之间平衡并寻求合作。英伟达则正在更深地介入AI生态，此前还开源Nemotron-4 340B系列模型，供开发人员使用以生成合成数据，用于训练大型语言模型。

手机扫码浏览该文章

● 相关资讯推荐

2024-9-6【英伟达】精准-逃顶-英伟达？黄仁勋6月以来已套现逾40亿

2024-9-5【英伟达】英伟达遭遇-多事之秋- 市值一夜蒸发2万亿元刷新纪录

2024-9-5【英伟达】英伟达回应美国司法部反垄断调查传闻 - 尚未收到传票，凭借自身实力取胜

2024-9-5【英特尔】支付宝回应淘宝新增支付方式；英伟达回应反垄断调查-AI daily早新闻

2024-9-5【英伟达】美股涨跌互现纳指两连阴，布油创一年新低

2024-9-5【经济活动】特斯拉涨超4%，市值大增2000亿元！利空突袭，美国钢铁跌超17%！美联储-鹰派-票委最新表态

2024-9-5【英特尔】美股三大指数震荡整理 - 法拉第未来股价大涨

2024-9-5【英伟达】全球抛售潮卷土重来迷你-黑色星期一-释放了什么信号？

2024-9-4【英伟达】英伟达闪崩美股9月-开门黑-

2024-9-4【英伟达】英伟达股价暴跌9.53% - 一夜蒸发近3000亿美元为哪般？