安大互联
财经热点 > 财经资讯 > 阿里通义Qwen2模型做了高考卷 - 猜猜它得了多少分
【大模型】阿里通义Qwen2模型做了高考卷 - 猜猜它得了多少分
浏览次数:【505】  发布日期:2024-6-19 21:16:01    文章分类:财经资讯   
专题:大模型】 【人工智能】 【Qwen
 

  6月19日,上海 人工智能 实验室发布首个AI高考全卷评测结果,月初开源的阿里通义千问大模型Qwen2-72B位列第壹,在语数外三科420分的满分中获得303分。

  上海 人工智能 实验室分析认为,高考覆盖各类学科及题型,这一综合性测试,目前普遍被研究者用于考察大模型的智能水平。2024年全国高考甫一结束,上海 人工智能 实验室的司南评测体系OpenCompass就选取6个开源模型及GPT-4o进行高考“语数外”全卷能力测试。因无法确定闭源模型的更新时间,为公平起见,此次评测没有并入商用闭源模型,仅引入GPT-4o作为评测参考。

  本次评测采用全国新课标I卷,参与评测的所有开源模型,开源时间均早于高考,确保评测 “闭卷”性。全卷试题既包含选择、填空等“答案唯一性”题目,也包含简答、阅读理解及作文等主观题,在更加接近真实高考的环境中测试模型能力。大模型的成绩由具有高考评卷经验的教师人工评判,更加接近真实阅卷标准。

  评测结果显示,Qwen2-72B以语数外303分的总成绩,成为本次大模型高考“状元”,领先于GPT-4o(296分)及书生·浦语2.0文曲星(InternLM2-20B-WQX,295.5)。本次评测的另外三位大模型选手分别是法国AI创业公司Mistral的Mixtral 8x22B模型、零一万物公司的Yi-1.5-34B模型、智谱AI的GLM-4-9B、阿里巴巴的通义千问Qwen2系列的混合专家(MoE)模型Qwen2-57B-A14B,通义千问的MoE模型同样表现不俗,总分(254分)位列第四名。

  上海 人工智能 实验室指出,大部分模型考生的语文、英语科目表现良好,但在数学方面还有很大的提升空间。InternLM2-20B-WQX获得了数学单科的最高分,但仍未达到及格水平,表明大模型的数学能力存在较大提升空间。据了解,本次“大模型高考”答案生成脚本、各模型答卷、教师评分细节全部公开。后续,研究团队将在评测中引入多模态大模型,以考察模型应对更多题型的能力,并逐渐发布覆盖不同学科和地区的完整高考评测。

手机扫码浏览该文章
 ● 相关资讯推荐
2024-9-26【人工智能】-财闻联播-10连板牛股 紧急提示!湖南省副省长王俊寿 - 运用四大工具 提升上市公司投资价值
2024-9-25【人工智能】当ChatGPT开始-说人话- 我们需要担心什么?
2024-9-25【人工智能】投资频现主权基金身影 中东的-钞能力-能砸出怎样的AI前景?
2024-9-24【人工智能】原油市场空前悲观之际 美银唱多 - AI将带来新需求!
2024-9-23【人工智能】-智改数转-赋能制造业 灯塔工厂打造竞争新优势
2024-9-21【文化产业】向勇 - 科技如何赋能文化?
2024-9-22【人工智能】南财合规周报-第159期-全民仅退款-APP京淘淘爆雷?网信办拟发布AI-内容水印-
2024-9-21【内幕交易】大数据+人工智能助力 监管剑指-守门人-内幕交易
2024-9-19【人工智能】中国式体检20年 - 从例行公事到真的救命
2024-9-17【数据中心】铜价长期将飙升?必和必拓 - AI浪潮将加剧铜短缺
 ● 相关资讯专题
人工智能】  【湖南省】  【软件开发】  【Meta】  【ChatGPT】  【说人话】  【原油市场】  【工业互联网】  【京东方】  【制造业】  【智改数转】  【文化产业】  【数字文化】  【跨境电商】  【全民仅退款】  【网信办】  【内容水印】  【内幕交易】  【证监会】  【星星科技】  【光大证券】  【大数据】  【守门人】  【张黎刚】  【例行公事】  【数据中心】  【云计算】  【必和必拓】 
  • 网络建设业务咨询

   TEl:13626712526