近日,Gemini3Pro在EpochAI的FrontierMath基準(zhǔn)測(cè)試中創(chuàng)下新紀(jì)錄,Tier1-3準(zhǔn)確率達(dá)38%,Tier4達(dá)19%,在Epoch能力指數(shù)(ECI)中獲得154分,超越了GPT-5.1此前保持的151分的最高紀(jì)錄。FrontierMath由EpochAI聯(lián)
合眾多職業(yè)數(shù)學(xué)家打造,包含數(shù)百道原創(chuàng)、從未公開的難題,覆蓋現(xiàn)代數(shù)學(xué)的主要分支,是衡量AI高階數(shù)學(xué)推理能力的重要基準(zhǔn)。
Gemini3Pro不僅在基準(zhǔn)測(cè)試中表現(xiàn)出色,還在實(shí)戰(zhàn)中證明了自己的實(shí)力。數(shù)學(xué)家陶哲軒近日發(fā)帖表示,他用GeminiDeepthink模式十分鐘便解決了埃爾德什問題#367的關(guān)鍵證明。這一問題涉及將整數(shù)拆成積木,只留下能成對(duì)出現(xiàn)、能拼成平方的那一部分,探討整數(shù)里“平方因子扎堆”的程度。陶哲軒將這一證明轉(zhuǎn)化為更基礎(chǔ)的版本,BorisAlexeev完成了證明的Lean形式化。
在登頂數(shù)學(xué)基準(zhǔn)測(cè)試的同時(shí),Gemini3Pro也在一項(xiàng)最新的物理基準(zhǔn)測(cè)試CritPt中霸榜。CritPt由三十多家機(jī)構(gòu)的五十余位活躍物理學(xué)者共同打造,涵蓋現(xiàn)代物理的十一大分支,是首個(gè)專門面向“未公開、真研究級(jí)”物理問題的大模型基準(zhǔn)。Gemini3Pro在CritPt測(cè)試中的成績?yōu)?.1%,雖然與滿分表現(xiàn)還有距離,但再次證明了其在前沿模型中的領(lǐng)先地位。



來源:一電快訊
返回第一電動(dòng)網(wǎng)首頁 >
以上內(nèi)容由AI創(chuàng)作,如有問題請(qǐng)聯(lián)系admin#d1ev.com(#替換成@)溝通,AI創(chuàng)作內(nèi)容并不代表第一電動(dòng)網(wǎng)(www.vlxuusu.cn)立場(chǎng)。
文中圖片源自互聯(lián)網(wǎng)或AI創(chuàng)作,如有侵權(quán)請(qǐng)聯(lián)系郵件刪除。