一年之间 AI 做高考数学从 47 分到 145 分!AI 数学能力发生了什么?自从去年极客公园搞了次 AI 做数学题,今年各大媒体又开始让 AI 写作文做数学题了,但是估计明年再搞一年 AI 数学题以后就搞不下去了,因为明年的结果只会是各大模型高考数学都是满分的成绩,再也拉不开区分度了!
可能你会好奇今年各个模型的高考数学成绩如何,我觉得“机器之心”这篇《高考数学全卷重赛!一道题难倒所有大模型,新选手Gemini夺冠,豆包DeepSeek并列第二》结果是挺靠谱的。
(参考图1)
> "从总分上来看,Gemini 2.5 Pro 考了 145 分,位列第一,Doubao 和 DeepSeek R1 以 144 分紧随其后,并列第二;o3 和 Qwen3 也仅有一分之差,分别排在第三和第四。受解答题的「拖累」,hunyuan-t1-latest 和文心 X1 Turbo 的总成绩排到了最后两名。"
> "从客观题来看,各家大模型几乎拉不开差距,最大分差也只有 3 分,第 6 题图像题更是让这几家多模态大模型「全军覆没」。"
(参考图2)
从整个测试过程上来说是客观公正的,我把做错的几题验证了一下,o3 第 6 题错的和截图一样,18 题一样忘记化简,第9题在我这里做对了,也就是误差可能有1分。不管怎么说这个结果也比较符合我的感觉:
1. 现在的推理模型在数学方面已经可以轻松在高考级别的数学题上拿到几乎满分的成绩
2. 国内的推理模型像豆包和DeepSeek在数学方面和国际顶尖模型的差距是很小的
** 从去年到今年:见证AI数学能力的指数级增长
有必要回顾一下去年大模型的高考数学上的表现(摘录自去年极客公园的测试结果 ):
> 大模型解决数学问题的能力明显不足,在所有产品的 2 轮测试中,9 款产品的数学平均分只有 47 分。除了 GPT-4o,豆包和文心 4.0是平均分唯二超过 60 分的,分别是 62.5 分和 61.5 分,剩下的六位大模型考生中则只有百小应能够维持 40 分以上的平均分。
(参考图3)
可能你会好奇,为什么才一年时间,这些大模型怎么就从刚刚及格线,一下子到了接近满分的成绩?
这背后离不开推理模型的功劳,如果你留意一下去年和今年参加测试的模型名单,去年的 6 月的时候还没有推理模型的概念,第一个推理模型 o1 还是 2024 年 9 月才发布的,DeepSeek R1 和豆包深度思考推理模型分别是 2025年的 1 月 20 日 和 3 月 5 日发布的。
*** 那么什么是推理模型?为什么推理模型做数学这么厉害呢?
假如说普通的大语言模型是一位会背书的同学:它看过海量课本,别人一问就能很快背出相似句子,但对于没有背过的数学题,它就只能靠蒙了!
推理模型就像一个正在学习如何解应用题的超级学霸 。这个学霸掌握了两种特别的学习方法:思维链(Chain of Thought) 和强化学习(Reinforcement Learning)。
思维链就像老师要求你“写出解题步骤”一样。这个学霸在遇到一个复杂的数学题时,不会直接猜答案,而是会一步一步地把思考过程写下来,比如“第一步,先算出A和B的总和... 第二步,再用总和除以C...”。每一步都建立在前一步的基础上,逻辑清晰,这样就不容易出错了。像豆包的深度思考模型就是通过这种方式,把一个大问题分解成一连串的小问题来解决,大大提高了准确性。
而强化学习则像一个奖励机制 。如果学霸通过一套“解题步骤”(也就是思维链)最终算对了答案,就会得到一朵小红花作为奖励;如果算错了,就没有奖励。通过成千上万次的练习,模型会不断调整自己的“思考路径”,学习哪些步骤是有效的,哪些是无效的,最终形成一套高效、准确的解题策略。就像你做多了练习题,自然而然就知道哪种方法最快最好一样。正是通过这两种方法的结合,豆包深度思考这样的推理模型才能像一个经验丰富的数学家一样,有条不紊地解决复杂的数学问题。
*** 为什么第 6 题大模型都没做对?难在哪里?
图4 就是第 6 题的截图,主要特点就是有一个坐标图,无法直接用自然语言描述。
现在的大语言模型,尤其是在训练时,还是以文本为主,虽然也支持图片的输入和输出,但是在图片识别的准确性上,还不能特别精确,比如图 6 右下角的坐标图,以现在 AI 的多模态能力,还不足以完整准确的理解这个坐标轴的数值和上面的箭头角度等信息。
并不是因为大模型不会做,而是它输入的信息是不完整的,就会影响到输出的准确性。
随着模型在多模态能力的进步,未来应该就不会是问题了。
*** 未来展望:高考数学将不再是AI的"试金石"
以现在推理模型在数学上的表现,在高考上已经没有什么区分度了,这就是为什么模型的评分标准也一直在升级,比如现在大模型在数学方面的评测基准之一是 FrontierMath,由 70 位数学家原创的 300 道研究级数学题,远超高考数学难度,目前的推理模型还只是突破 了 25% 左右。
** 最后
1. 不必对于 AI 能力产生不必要的焦虑,AI 数学能力强,并不代表就能取代人类,相反我们可以让 AI 成为学习上的助手
2. 豆包与 DeepSeek 凭一分之差证明国产 AI 和国外顶尖模型的差距越来越小
3. 未来比拼模型能力的,不是光看分数,而是谁能把严谨推理与多模态理解真正融入日常应用场景中,让 AI 的语言能力、推理能力、数学能力能为人类所用,帮助人更好的提升效率。
点击图片查看原图
点击图片查看原图
点击图片查看原图
点击图片查看原图