首个AI高考评测结果发布 GPT-4o名列第二

文章4周前更新 admin
38 0

GPT-4o究竟为何能名列第二?

参与本次“大模型高考”的模型AI

Mixtral 8x22B:法国AI创业公司Mistral于2024年4月17日开源的对话模型。

Yi-1.5-34B:零一万物公司于2024年5月12日开源的Yi-1.5系列最大的模型

GLM-4-9B:智谱AI于2024年6月4日推出的最新一代预训练模型GLM-4系列的开源版本。:InternLM2-20B-WQX:上海人工智能实验室于2024年6月4日开源的书生·浦语2.0系列文曲星大语言模型。

Qwen2-578:阿里巴巴于2024年6月6日开源的Qwen2系列MoE对话模型Qwen2-728:阿里巴巴于2024年6月6日开源的72B密模型

首个AI高考评测结果发布 GPT-4o名列第二

评测采用“语数外”三科题目作为测试集,仅输入文字题干(数学包含2道带图试题),不纳入英语听力部分(30分)。

总分前三名Qwen2-72B、GPT-40、InternLM2-20B-WQX对应得分率分别为72.1%、70.5%和70.4%.

大部分模型在”语言”本质上的表现良好,语文平均得分率为67%,英语更是达到了81%。

而数学则是所有大模型的短板,,平均得分率仅为36%。得益于研究团队在数学推理上的投入,InternLM2-20B-WOX取得了75分的最高分,超过所有受测模型。然而仍未达到及格水平,这表明大模型的数学能力存在较大提升空间……

© 版权声明

暂无评论

暂无评论...