DeepSeek挑战北大强基数学试题：AI能否打败高三考生？

2025-02-19 14:13|编辑: 于老师|阅读: 141

摘要

DeepSeek爆火，在国内带来不小的反响，今天让DeepSeek挑战北大强基数学试题，看它是否能打过高三生，一起看看吧！

DeepSeek横空出世，各行各业都在热火朝天地测试它的能力上限，自主选拔在线团队自然也不能免俗，想看一下号称目前地表最强之一的人工智能，和智商巅峰期的人类——高三考生，究竟谁能更胜一筹！

自主选拔在线团队打算用一套北大强基计划试题，来测试一下DeepSeek在数学直觉、逻辑推理、计算方面的水平，看它是否能达到“经过系统性学习和训练”的高三学生水平！

温馨提示：为方便大家交流联系，欢迎大家扫描下方二维码加入"2025强基综合评价交流群"，我们有专业的老师将为大家线上答疑。

扫一扫即可进群

如果加群失败，可在企业微信联系人中 添加青桐老师（微信号：15321584635）好友，备注：省市-高考年份。

测试说明

1.本次参与测试的AI为DeepSeek R1 深度思考模式；

2.测试题目为2021年北京大学强基计划数学试题，全卷共20题，每题5分；

3.原测试为选择题，为避免“蒙”答案的可能性，我们改为填空题形式；

4.测试时长为60分钟（与真实考试相同），包括思考及答题时间，超时作答不计分。

作答情况

因DeepSeek作答步骤太长，故仅展示前五道题的具体解答步骤，正确率和总时长可移步下一部分总结分析：

第一题：结果正确，输出证明错误。

第二题：结果错误。

第三题：结果正确。

第四题：题目读错了，算错了结果。

第五题：题干理解错误，导致结果错误。

总结评价

这套卷子是北京大学2021年强基计划的数学真题（回忆版），为了防止DeepSeek乱蒙，因此以填空的形式给DeepSeek做，相当于给DeepSeek增加了一些难度。

在考试时候，这套卷子的要求用时是一个小时，对于人类来说是比较紧张的，可以看出对于DeepSeek也很紧张，最后加起来整体上超时了3分多钟，不过其实直到最后一题之前，DeepSeek对时间的控制和规划都还是不错的，所以这个超时是完全超在了最后一题不会做上了。

最终的得分是50分，这个分数大概正好在面试线上下，所以DeepSeek本次所展现出的实力大概是强基计划刚好压线的水平。做对的10道题中有2道是蒙对的，这也合理，人类做这些题蒙个一两道也是常见的。

从做对的题目的分布来看，DeepSeek的强项是有明确成熟模型的计算题，或者逻辑不太复杂、规模也不太大，靠计算能力可以硬算的题目。而做错的题主要分两类，一类是逻辑上理不顺的题目，另一类是看不懂的题目。

其实从思考过程中可以看出，即便是没做对的题，有很多其实一开始DeepSeek也找到了正确的思路，但是没有坚持下去，或者后续的变形略微复杂，超出了他的理解能力。而在面对不太常见的复杂表达的式子时，DeepSeek几乎全都读错了题，而在读错题的时候，他能够意识到读错了，并会把大部分时间用于猜测真正的题目是什么，不过成功率并不高。

DeepSeek做题的另一个特点是自我怀疑和陷入幻觉的情况较多，无论做对或是做错，都会反复问自己做得对不对，一般都要至少检查三遍才敢确认结果。

总体来说，如果按照拟人的形式来给DeepSeek做一个画像的话，这次测试中，DeepSeek所展现的形象比较类似于一个兴趣广泛，提前学习了一些超纲知识，对自己的计算能力很自信但是又不太有耐心，不喜欢复杂逻辑推理，又有点强迫症的学生。

整个分析看下来，我们可以发现DeepSeek的一些弱点在考生们的身上时不时也会有所体现。考生可能没有人工智能那么强大的计算能力，但是在思维上我们可以更轻松地理解各种复杂的逻辑概念，经过训练我们可以更容易地产生解决问题的巧思。这种具有逻辑性和创造性的思维，正是强基计划对人才的要求，也是同学们未来代表人类去探索知识边界必备的素质。

祝读到这里的各位考生们，未来都能昂首挺胸，骄傲地说道：”AI不会取代我，而只会成为我手中新的利刃“。

声明：本文信息来源于网络，由自主选拔在线团队（微信公众号：zizzsw）排版编辑，如有侵权，请及时联系管理员删除。

分享到：