摘要: 2023年高考人工智能大模型排名出炉,GPT-4、GPT-3.5-turbo等模型表现抢眼,数学题验证结果揭秘,让人工智能与教育更深度融合。
人工智能大模型参加2023高考,成绩单揭晓 ?
引言
在2023年8月,《量子位》发布了一篇关于大型人工智能模型参加2023高考147道客观题的成绩单[1]。这场综合测试给出了一些令人关注的结果,排名前三的模型均来自知名组织。让我们一起看看各模型的正确率排名。
模型正确率排名
| 排名 | 模型名称 | 正确率 | 组织机构 |
|——|———————|———-|————–|
| 1 | GPT-4 | 0.604 | OpenAI |
| 2 | GPT-3.5-turbo | 0.425 | OpenAI |
| 3 | AquilaChat-7B | 0.372 | 智源 |
| 4 | ChatGLM2-6B | 0.255 | 智谱/清华 |
| 5 | Chinese-Alpaca | 0.247 | YimingCui |
| 6 | StableLM-Alpha | 0.245 | Stability AI |
| 7 | Alpaca | 0.233 | 斯坦福大学 |
| 8 | MOSS-003-SFT | 0.229 | 复旦大学 |
| 9 | BELLE-LLaMA | 0.116 | 链家 |
| 10 | ChatGLM-6B | 0.099 | 智谱/清华 |
这份成绩单表明,虽然各大模型在高考题上取得了一定成绩,但仍有进步的空间。
数学题验证
为了更全面地评估这些模型,我们选择了2道2023高考数学真题进行验证。我们从9种LLM(GPT-4、GPT-3.5、文心一言-4.0、文心一言-3.5、文心一言ORI、ChatGLM2、通义千问、讯飞星火、360智脑)的结果分析中得出了以下结论:
- 文心一言在纵向结果上确实有进步,从公测上线到3.5版本再到4.0版本,只是4.0版本的生成时间稍长。
2023年全国甲卷数学真题验证
第1题:填空题
正确答案:【2】
GPT-4
– 答案和解答过程:结果正确得分,但推导过程存在一些错误
第4题:选择题
正确答案:选【D】
GPT-4
– 答案和解答过程:正确得分
详细解答过程请查看这里
希望通过这些验证,能够更全面地了解各大模型在高考数学题上的表现。期待它们在未来取得更好的成绩!