首个AI高考评测结果发布 GPT-4o名列第二

文章1年前 (2024)更新 admin

429 0 0

GPT-4o究竟为何能名列第二？

参与本次“大模型高考”的模型AI

Mixtral 8x22B:法国AI创业公司Mistral于2024年4月17日开源的对话模型。

Yi-1.5-34B:零一万物公司于2024年5月12日开源的Yi-1.5系列最大的模型

GLM-4-9B:智谱AI于2024年6月4日推出的最新一代预训练模型GLM-4系列的开源版本。:InternLM2-20B-WQX:上海人工智能实验室于2024年6月4日开源的书生·浦语2.0系列文曲星大语言模型。

Qwen2-578:阿里巴巴于2024年6月6日开源的Qwen2系列MoE对话模型Qwen2-728:阿里巴巴于2024年6月6日开源的72B密模型

首个AI高考评测结果发布 GPT-4o名列第二

评测采用“语数外”三科题目作为测试集，仅输入文字题干(数学包含2道带图试题)，不纳入英语听力部分(30分)。

总分前三名Qwen2-72B、GPT-40、InternLM2-20B-WQX对应得分率分别为72.1%、70.5%和70.4%.

大部分模型在”语言”本质上的表现良好，语文平均得分率为67%，英语更是达到了81%。

而数学则是所有大模型的短板，，平均得分率仅为36%。得益于研究团队在数学推理上的投入，InternLM2-20B-WOX取得了75分的最高分，超过所有受测模型。然而仍未达到及格水平，这表明大模型的数学能力存在较大提升空间……

# 文章 # 资讯文章

© 版权声明

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

AI导航站丨AI工具集丨为发现全球优质AI工具产品而生

友链申请免责声明广告合作合作共赢关于我们米集网站分类目录

Copyright © 2025 Ai导航站