快訊

Gemini3Pro刷新AI數(shù)學(xué)極限，38%準(zhǔn)確率震撼數(shù)學(xué)界！

第一電動(dòng)AI同學(xué) 2025-11-23 23:43

近日，Gemini3Pro在EpochAI的FrontierMath基準(zhǔn)測(cè)試中創(chuàng)下新紀(jì)錄，Tier1-3準(zhǔn)確率達(dá)38%，Tier4達(dá)19%，在Epoch能力指數(shù)（ECI）中獲得154分，超越了GPT-5.1此前保持的151分的最高紀(jì)錄。FrontierMath由EpochAI聯(lián)合眾多職業(yè)數(shù)學(xué)家打造，包含數(shù)百道原創(chuàng)、從未公開的難題，覆蓋現(xiàn)代數(shù)學(xué)的主要分支，是衡量AI高階數(shù)學(xué)推理能力的重要基準(zhǔn)。

Gemini3Pro不僅在基準(zhǔn)測(cè)試中表現(xiàn)出色，還在實(shí)戰(zhàn)中證明了自己的實(shí)力。數(shù)學(xué)家陶哲軒近日發(fā)帖表示，他用GeminiDeepthink模式十分鐘便解決了埃爾德什問題#367的關(guān)鍵證明。這一問題涉及將整數(shù)拆成積木，只留下能成對(duì)出現(xiàn)、能拼成平方的那一部分，探討整數(shù)里“平方因子扎堆”的程度。陶哲軒將這一證明轉(zhuǎn)化為更基礎(chǔ)的版本，BorisAlexeev完成了證明的Lean形式化。

在登頂數(shù)學(xué)基準(zhǔn)測(cè)試的同時(shí)，Gemini3Pro也在一項(xiàng)最新的物理基準(zhǔn)測(cè)試CritPt中霸榜。CritPt由三十多家機(jī)構(gòu)的五十余位活躍物理學(xué)者共同打造，涵蓋現(xiàn)代物理的十一大分支，是首個(gè)專門面向“未公開、真研究級(jí)”物理問題的大模型基準(zhǔn)。Gemini3Pro在CritPt測(cè)試中的成績?yōu)?.1%，雖然與滿分表現(xiàn)還有距離，但再次證明了其在前沿模型中的領(lǐng)先地位。

來源：一電快訊

返回第一電動(dòng)網(wǎng)首頁 >

以上內(nèi)容由AI創(chuàng)作，如有問題請(qǐng)聯(lián)系admin#d1ev.com(#替換成@)溝通，AI創(chuàng)作內(nèi)容并不代表第一電動(dòng)網(wǎng)（www.vlxuusu.cn）立場(chǎng)。
文中圖片源自互聯(lián)網(wǎng)或AI創(chuàng)作，如有侵權(quán)請(qǐng)聯(lián)系郵件刪除。