23th CPHOS联考AI作答情况分析 发表评论 / 作者: luorui / 2024年 9月 30日 OpenAI-o1简介 OpenAI-o1是一种强大的语言模型,基于 GPT(生成式预训练模型)的技术,专注于理解和生成自然语言与代码。在理科答题和知识应用方面,它拥有广泛的知识库,能够解决复杂问题,解题思路清晰、语言表达清楚、步骤详细。 我们使用OpenAI-o1模型对第23届CPHOS联考(复赛模拟赛)进行测试。针对它的作答,命题组成员进行了评分。 AI作答情况 总体情况 第一、二、三、六、七题总分:65分 第四、第五题:由于图片过多无法完成 在含实验分的总分排名中击败了约18%的人类考生 逐题分析 第一题:10分 AI就像是一个刚学习刚体的初学者一样,感觉列了一些没有太大意义的公式,而且还有前后矛盾。第二题:14分 小问之间逻辑性不强。如并没有意识到第二问中使用的电场是第一问中算出的,还有自行假设了一个恢复系数而不是使用计算得到的。第三题:11分 处于没学过竞赛的高中生水平。第一问9分,送分的几何光学,思维链显得有些冗杂,属于高中水平的问题。 第二问0分,由于这个模型是出题人新杜撰的,很显然以GPT目前的泛化能力还不足以做出没有类似训练样本的题目,再加上本问本来就难,考场上做出来的同学屈指可数,姑且可以原谅GPT发癫到连求什么都没搞明白。 第三问2分,能写出来避免多次反射的影响让人非常惊喜,猜测是以前有类似的样本,因为此问GPT没有使用思维链,看来GPT还没有进行纯文字的物理规律推理的能力。第六题:25分 本题阅读理解的成分较多,故看起来它的成绩还是不错的。正确完成了(1.1)问和(2.1)问的全部内容,因为这一部分考察的主要是基本知识的掌握,在市面上常见的书籍中基本都可以找到。但是其他部分需要认真理解题目的要求,并且结合一些对相对论的基本知识才能掌握。这一部分作答程度并不理想,只是简单地将题目表述“翻译”成了公式,并没有体现处“人类同学“迁移运用知识的能力。第七题:5分 基本没有理解题目关键过程,忽略了爆燃前后气体的成分变化,不会计算热容比,并且有混淆字母的现象发生。 OpenAI-o1的详细作答情况请查看:第23届CPHOS物理竞赛联考 – AI作答完整试题及答案下载请访问:第23届CPHOS物理竞赛联考 – CPHOS 文案 | CPHOS理论研讨组 排版 | CPHOS宣传联络组