中科院物理所:咱们用近来很火的DeepSeek挑衅了物
发布时间:2025-02-01 09:01
3.阅卷组与“天目杯”比赛的阅卷组完整雷同,且每位阅卷人担任的标题也雷同。举例:阅卷人A担任全部人类跟AI答卷中的第一题;阅卷人B担任全部人类跟AI答卷中的第二题,等等。 4.阅卷组汇总全部标题得分。 成果怎样呢?请看下表。 成果点评: 1.DeepSeek-R1表示最好。基本题(前三题分数拿满),第六题还失掉了人类选手中未见到的满分,第七题得分较低仿佛是由于未能懂得题干中“证实”的含意,仅仅重述了待证实的论断,无奈得分。检查其思考进程,是存在能够给进程分的步调的,但最后的谜底中这些步调都不表现。 2.GPT-o1总分与DeepSeek相差无多少。在基本题(二题、三题)中有盘算过错招致的掉分。比拟于DeepSeek,o1的答卷更濒临于人类的作风,因而以证实题为主最后一题得分稍高。 3.Claude-sonnet堪称“马掉前蹄”,在前两题中连出昏招打了0分,但后续表示跟o1相称濒临,连扣分点都是相似的。 4.假如将AI的成就与人类成就比拟较,则DeepSeek-R1能够进入前三名(获特优奖),但与人类的最高分125分仍有较年夜差距;GPT-o1进入前五名(获特优奖),Claude-sonnet前十名(获优良奖)。 最后想聊多少句阅卷的客观感触。起首是AI的思绪是真的好,基础上不无奈动手的题,乃至良多时间一会儿就能找到准确的思绪。但跟人类差别的是,它们在有准确的思绪后,会在一些很简略的过错外面打转。比方经由过程看R1的第七题思考进程,就发明它一早就晓得要用简正坐标来做,能想到这一步的考生多少乎100%求解出了准确的简正坐标(一个简略的矩阵对角化罢了),然而R1仿佛是在重复的猜想跟试错,到最后也不失掉简正坐标的表白式。另有就是全部的AI仿佛都不睬解一个“周密”的证实毕竟象征着怎么的请求,仿佛以为能在情势上凑出谜底,就算是证实了。AI犹如人类,也会呈现很多“偶尔”过错。比方在正式的同一测试前,咱们暗里实验过屡次,良多时间Claude-sonnet能够准确解出第一题的谜底,但正式测试的那次它就偏偏做错了。出于谨严,咱们兴许应当对统一道题测试屡次而后取均匀,但切实是有点费事…… 前往搜狐,检查更多