“6款主流大模型的解題能力整體表現呈現出清晰的梯隊分化。”
6月7日,2026年全國高考數學科目考試落下帷幕,隨後,多個數學相關的議題登上熱搜。過去兩年,AI產業迎來高速發展,大模型推理能力、數理分析能力持續進階,如果讓AI大模型化身「考生」應戰高考數學試題,它們將有怎樣的表現?
我們就此進行了一場評測,選取了6名以推理見長的大模型“考生”,分別是訊飛星火、DeepSeek、智譜、ChatGPT、Kimi、MiniMax,選取了2026年新高考I卷數學卷進行測評。
這次評測,我們也邀請了兩位專業老師輔助對大模型的考卷進行評分,他們分別是:人大附中北京經濟技術開發區學校高中數學教師、教研組長、北京市數學骨幹教師韓靜波,北京市中學數學特級教師、全國高中數理化名師俱樂部副理事長、中國數學奧林匹克高級教練益丁祥。
測驗結果顯示,6款主流大模型的解題能力整體表現呈現梯隊分化。有專家指出,目前大模型的數學能力競爭,已經從「能算出結果」轉向了「過程嚴謹、邏輯完整、複雜問題可拆解」的高階比拼。
![]()
6位大模型「考生」總得分情形。新京報製圖/盧子雄
6位「考生」總分呈現梯度分佈
需要說明的是,由於用於測評的題目為根據網絡流出的多個版本交叉驗證後的試題(可能存在與真題試卷不完全相符的情況,但不影響測評進行,所有大模型“考生”使用的均為相同題目),共19道題目,總分為150分。
先來看這次「考試」各位大模型「考生」的總得分(規範分)狀況:訊飛星火以148分總成績領先,其他「考生」總分由高到低分別為:Kimi145分、DeepSeek144分、智譜143分、MiniMax142分、ChatGPT137分。
在基礎題部分,各模型選擇題與多選題達到全員滿分,僅個別模型在填空題中出現失誤。
解答題和解題過程的規範性是拉開差距的關鍵。幾位大模型「考生」中,訊飛星火全程規範分與結果分完全一致,推理過程較為清晰,字符也較規範。丁益祥舉例,其第15題第(2)小題,訊飛星火給出了幾何法和向量法兩種方法求解;而在第18題第(2)小題中的第①小問,它充分利用了平面幾何中三角形面積之間的關係,第②小問利用了夾角公式,簡化了運算。
同時丁益祥指出,在第18題第(2)小題中的第①小題這一題型上,「MiniMax卷」和「智譜卷」也利用了平面幾何中三角形面積之間的關係處理問題,都有不錯表現。
在解題部分,有些模型則在不同程度上有步驟失分,或是在解題中因關鍵推導缺失或邏輯不連貫而被扣減步驟分。
![]()
「考生」不同題目得分情形。新京報製圖/盧子雄
壓軸題成為區分模型複雜推理能力的分水嶺
由於考題較多,在此僅挑選部分題目來呈現作答情況並請專家進行點評。
韓靜波注意到,訊飛星火在解析第二問幾何性質時分析得很好,做法簡潔,還有一些題目給了兩種解法。 “訊飛星火在數形結合、對圖形幾何性質的研究上明顯優於其他模型。”
壓軸題(第18、19題)成為區分模型複雜推理能力的分水嶺。大部分模型在第18題中表現尚可,但在第19題中出現了明顯的“後繼乏力”,有“考生”僅得12分(滿分17分),反映出部分大模型在處理多步驟、高複雜度邏輯鏈時仍存在能力瓶頸。
韓靜波發現,最後一題(19題)中,DeepSeek在大眾形式化的代數推導比較擅長,利用通性通法按部就班做長邏輯的推導比較擅長,但是數形結合,對圖形幾何性質的分析稍顯欠缺,此外,利用題目的特殊性靈活處理問題能力不足。
大模型解數學題仍存在明顯提升空間
「可以說『某些思路雷同,答卷各有千秋’,但也有些大模型還有改進的空間。』對於這六份由大模型「考生」給出的數學高考卷,北京市中學數學特級教師、全國高中數理化名師俱樂部副理事長、中國數學奧林匹克高級教練丁益祥點評道。
他以第15題第(1)小題為例,六份答卷一致地利用幾何法證明;第18題第(1)小題,六份答卷一致地利用參數間的關係求橢圓的標準方程式;第19題第(1)小題,六份答案一致地利用直接計算的方法求得結果。
![]()
丁益祥對試卷的批閱記錄。
同時,丁益祥也指出了大模型需要改進的地方,包括知識運用不恰當、字符呈現不規範、部分解法不簡練等問題。例如,「DeepSeek卷」「Kimi卷」「ChatGPT卷」「智譜卷」在解第18題第(2)小題都利用了向量的叉乘運算。在解第19題第(2)小題中,「DeepSeek卷」也利用了「上確界」的概念,「這些都是高等數學中的知識,高中未學過,在解答高考數學試題中一般不宜使用。」丁益祥說道。
「MiniMax卷、智譜卷中的字符不統一、不規範,給人的感覺較為凌亂,智譜卷中第19題第(3)小題的推導不簡練……」丁祥認為,這意味著在做數學改進的空間。
整體而言,頭部大模型在高考數學場景中已展現出一定的解題實力,不僅能算出正確結果,在以規範、嚴謹的過程呈現推導思路方面呈現出一定優勢;也有部分模型雖在基礎題上表現穩定,但在步驟規範性與復雜壓軸題的推理能力上仍有明顯提升空間。
新京報記者馮琪劉洋
編輯繆晨霞校對柳寶慶