23th CPHOS联考AI作答情况分析

OpenAI-o1简介

OpenAI-o1是一种强大的语言模型，基于 GPT（生成式预训练模型）的技术，专注于理解和生成自然语言与代码。在理科答题和知识应用方面，它拥有广泛的知识库，能够解决复杂问题，解题思路清晰、语言表达清楚、步骤详细。

我们使用OpenAI-o1模型对第23届CPHOS联考（复赛模拟赛）进行测试。针对它的作答，命题组成员进行了评分。

AI作答情况

总体情况

第一、二、三、六、七题总分：65分

第四、第五题：由于图片过多无法完成

在含实验分的总分排名中击败了约18%的人类考生

逐题分析

第一题：10分

AI就像是一个刚学习刚体的初学者一样，感觉列了一些没有太大意义的公式，而且还有前后矛盾。

第二题：14分

小问之间逻辑性不强。如并没有意识到第二问中使用的电场是第一问中算出的，还有自行假设了一个恢复系数而不是使用计算得到的。

第三题：11分

处于没学过竞赛的高中生水平。第一问9分，送分的几何光学，思维链显得有些冗杂，属于高中水平的问题。

第二问0分，由于这个模型是出题人新杜撰的，很显然以GPT目前的泛化能力还不足以做出没有类似训练样本的题目，再加上本问本来就难，考场上做出来的同学屈指可数，姑且可以原谅GPT发癫到连求什么都没搞明白。

第三问2分，能写出来避免多次反射的影响让人非常惊喜，猜测是以前有类似的样本，因为此问GPT没有使用思维链，看来GPT还没有进行纯文字的物理规律推理的能力。

第六题：25分

本题阅读理解的成分较多，故看起来它的成绩还是不错的。正确完成了（1.1）问和（2.1）问的全部内容，因为这一部分考察的主要是基本知识的掌握，在市面上常见的书籍中基本都可以找到。但是其他部分需要认真理解题目的要求，并且结合一些对相对论的基本知识才能掌握。这一部分作答程度并不理想，只是简单地将题目表述“翻译”成了公式，并没有体现处“人类同学“迁移运用知识的能力。

第七题：5分

基本没有理解题目关键过程，忽略了爆燃前后气体的成分变化，不会计算热容比，并且有混淆字母的现象发生。

OpenAI-o1的详细作答情况请查看：第23届CPHOS物理竞赛联考 – AI作答

完整试题及答案下载请访问：第23届CPHOS物理竞赛联考 – CPHOS

文案 | CPHOS理论研讨组

排版 | CPHOS宣传联络组

OpenAI-o1简介

AI作答情况

总体情况

逐题分析

发表评论 取消回复

发表评论取消回复