真實科研水平集體不及格!全新基準(zhǔn)SFE給主流多模態(tài)LLM來了波暴擊
時間:2025-07-21 13:28:02 出處:綜合閱讀(143)
當(dāng)前,真實準(zhǔn)驅(qū)動科學(xué)研究的科研人工智能(AI for Science,AI4S)在單點取得了可觀的水平進(jìn)展,實現(xiàn)了工具層面的集體革新,然而要成為「革命的不及M波暴擊工具」,需要采用「通專融合 AGI」方式。格全給主大模型的新基突破性能力逐步改變科學(xué)研究的模式,而大模型在科學(xué)領(lǐng)域的流多深度應(yīng)用亟需科學(xué)的評測支撐。
現(xiàn)有科學(xué)評測面臨著兩大痛點:現(xiàn)有測試多聚焦知識記憶,模態(tài)而真實科研需要從原始科學(xué)數(shù)據(jù)感知到復(fù)雜推理的真實準(zhǔn)全鏈條能力;天文、地球、科研生命和材料等領(lǐng)域存在大量未開發(fā)的水平多模態(tài)數(shù)據(jù)分析需求。
為此,集體上海人工智能實驗室 AI4S 團隊推出了?Scientists’ First Exam(以下簡稱 SFE)—— 系統(tǒng)評估多模態(tài)大模型(MLLMs)多學(xué)科、不及M波暴擊高難度的格全給主科學(xué)專業(yè)領(lǐng)域認(rèn)知能力的評測基準(zhǔn)。
SFE 首創(chuàng)「信號感知 - 屬性理解 - 對比推理」三級評估體系,涵蓋五大科學(xué)領(lǐng)域的 66 項高價值任務(wù),采用原始科學(xué)數(shù)據(jù)和中英雙語問答形式。測試表明,盡管主流模型在傳統(tǒng)基準(zhǔn)表現(xiàn)優(yōu)異,但在 SFE 高階科學(xué)任務(wù)上仍面臨顯著挑戰(zhàn)(SOTA 大模型綜合得分僅為 30 左右)。SFE 通過系統(tǒng)全面地評測大模型在科學(xué)任務(wù)上的能力短板,為科學(xué) AI 發(fā)展指明了突破方向。
三層認(rèn)知框架評估科學(xué)能力的深度和廣度
SFE 構(gòu)建了三層認(rèn)知框架,包括:
科學(xué)信號感知(L1)
科學(xué)屬性理解(L2)
科學(xué)比較推理(L3)
通過這三個認(rèn)知層級,SFE 考察模型從數(shù)據(jù)感知到高階推理的綜合能力。SFE 涵蓋了天文學(xué)、化學(xué)、地球科學(xué)、生命科學(xué)和材料科學(xué)五大領(lǐng)域,共包含 66 個由專家精心設(shè)計的高價值多模態(tài)任務(wù)。所有任務(wù)基于科學(xué)原始數(shù)據(jù)構(gòu)建,以視覺問答(VQA)形式呈現(xiàn),并支持中英文雙語。SFE 不僅考查深層次的領(lǐng)域知識和數(shù)據(jù)分析能力,也旨在提升科學(xué)研究效率,促進(jìn)科學(xué)進(jìn)步。
SFE 旨在全面評估 MLLMs 的科學(xué)能力的深度和廣度SFE 任務(wù)分布SFE 數(shù)據(jù)分布多學(xué)科領(lǐng)域?qū)<夜步〝?shù)據(jù)集
SFE 的數(shù)據(jù)集構(gòu)建與多學(xué)科領(lǐng)域?qū)<疫M(jìn)行了廣泛合作,包含三個關(guān)鍵階段:
結(jié)構(gòu)設(shè)計,與專家共同確定高價值科學(xué)挑戰(zhàn)和方向;
任務(wù)設(shè)計,將科學(xué)方向細(xì)化為具體任務(wù),通過專家設(shè)計和評審明確問題類型與認(rèn)知層級;
基準(zhǔn)搭建,精選科學(xué)原始數(shù)據(jù),進(jìn)行渲染和可視化,由專家撰寫高質(zhì)量的 VQA 樣本。
SFE 數(shù)據(jù)收集框架圖。1. 根據(jù)科學(xué)前沿進(jìn)展和領(lǐng)域?qū)<医ㄗh,確定了 18 個科學(xué)方向。2. 邀請專家提出領(lǐng)域任務(wù)并提供基于三個認(rèn)知水平的原始任務(wù)數(shù)據(jù)。3. 將任務(wù)數(shù)據(jù)可視化并進(jìn)一步請領(lǐng)域?qū)<覍Y(jié)果基準(zhǔn)進(jìn)行注釋。
評測揭示主流 MLLMs 在高階科學(xué)任務(wù)上面臨挑戰(zhàn)
基于 SFE,對 16 個主流的開源與閉源 MLLMs 進(jìn)行了評測。為了降低評測過程中的隨機性,所有模型的 Temperature 參數(shù)都被統(tǒng)一設(shè)置為 0。同時,為了保證評測的公平性,所有模型的最大生成 Token 數(shù)也被統(tǒng)一限定為 1024。在此實驗設(shè)置下,SFE 觀察到以下關(guān)鍵現(xiàn)象:
閉源 MLLMs 的科學(xué)能力顯著優(yōu)于開源 MLLMs
SFE 評測結(jié)果顯示,閉源大模型(如 GPT-o3、Claude-3.7-Sonnet)在科學(xué)認(rèn)知能力上整體優(yōu)于開源模型,平均領(lǐng)先 6-8%。
其中,GPT-03 與 Gemini-2.5-Pro 的表現(xiàn)差異超過 26%。造成這一顯著差距的主要原因在于,Gemini-2.5-Pro 在推理過程中進(jìn)行了過多冗余的思考,導(dǎo)致 Token 消耗過快,最終未能完整輸出結(jié)論。而 GPT-o3 雖同為具備推理能力的模型,但能夠更有效地控制思考過程的冗余度,提高推理效率,因此獲得了更高的分?jǐn)?shù)。這一結(jié)果進(jìn)一步證明了?SFE 能有效區(qū)分不同模型的科學(xué)能力。
此外,同一系列模型內(nèi)部也表現(xiàn)出明顯進(jìn)步,例如 Claude-3.7-Sonnet 相比前代提升超過 7%。這一趨勢在 InternVL 模型系列中同樣存在,反映出模型架構(gòu)與訓(xùn)練方法的持續(xù)改進(jìn)帶來的能力提升。
MLLMs 在 SFE 的不同學(xué)科之間表現(xiàn)出明顯性能差距
評測結(jié)果顯示,材料科學(xué)是各類模型表現(xiàn)最好的領(lǐng)域,GPT-o3 在該方向的英文任務(wù)中達(dá)到 63.44%,中文任務(wù)為 58.20%,即便是開源模型(如 Qwen2.5-VL-72b、InternVL-3-78B)也能超過 40%。這種優(yōu)勢主要得益于材料科學(xué)任務(wù)的輸入結(jié)構(gòu)化明顯(如相圖、X 射線衍射圖),模型可依賴其較強的符號化視覺信息處理能力,輸出結(jié)構(gòu)化的科學(xué)答案。
相比之下,天文學(xué)任務(wù)則更具挑戰(zhàn)性,涉及光譜分析和天體物理參數(shù)的數(shù)值估算,因原始數(shù)據(jù)噪聲大、直觀性弱,當(dāng)前模型普遍難以勝任。該現(xiàn)象反映了?SFE 能有效揭示 MLLMs 在不同類型科學(xué)推理上的優(yōu)勢與不足。
MLLMs 的科學(xué)能力正在從知識理解到高階推理進(jìn)行轉(zhuǎn)變
SFE 的三層認(rèn)知框架顯示,最新的 MLLMs 在高階推理(L3)任務(wù)上表現(xiàn)提升顯著,而在理解類(L2)任務(wù)上的進(jìn)步有限。例如,GPT-o3 在 L3 任務(wù)上的得分從 26.64%(GPT-4.1)提升到 36.48%,但 L2 分?jǐn)?shù)幾乎無變化。這說明模型在推理能力、工具使用等方面進(jìn)步,知識廣度則變化不大。
同樣,InternVL-3 英文 L3 任務(wù)也較前代提升 8%,這主要得益于其多模態(tài)預(yù)訓(xùn)練和鏈?zhǔn)剿季S等新訓(xùn)練策略。L2 任務(wù)進(jìn)步微弱,進(jìn)一步說明模型的提升主要來源于高階推理能力的架構(gòu)與訓(xùn)練創(chuàng)新。
閉源 MLLMs 在可擴展性上普遍優(yōu)于開源模型
采用 Pass@k 指標(biāo)評估模型生成高質(zhì)量答案的能力,結(jié)果顯示,閉源模型(如 GPT-4.1-2025-04-14 和 Gemini-2.5-Flash)不僅初始表現(xiàn)更好(30.56% vs 26.09%),而且隨著 k 增加,性能提升也更明顯(30.56% → 37.75% vs 26.09% → 27.33%)。
這表明閉源模型在預(yù)訓(xùn)練時或許使用了更豐富多樣的數(shù)據(jù)集,并在后訓(xùn)練階段注重了探索(Exploration)與利用(Exploitation)的平衡,優(yōu)于僅注重 Exploitation 的開源模型。
科學(xué)領(lǐng)域模型大小的 Scaling Law
在 SFE 評測下,不同大小的 MLLMs 表現(xiàn)出模型規(guī)模與科學(xué)能力提升并不總是成正比。例如,Qwen2.5-VL-72B 與 InternVL-3-78B 相較于自家小模型并未顯著提升,Qwen2.5-VL-72B 甚至低于 Qwen2.5-VL-7B,可能存在過擬合問題。
這表明在科學(xué)領(lǐng)域,模型擴大的同時需合理擴充科學(xué)數(shù)據(jù),否則難以實現(xiàn)性能線性提升。
SciPrismaX科學(xué)評測平臺
共建 AI4Science 生態(tài)
除發(fā)布了 SFE 評測基準(zhǔn)之外,研究團隊還構(gòu)建了「棱鏡」(SciPrismaX) 科學(xué)評測平臺。平臺包含了模型能力、學(xué)科多樣性、評估策略、評估對象與評估工具五大模塊,覆蓋了 AI for Innovation、AI for computation 和 AI for Data 三層評估維度,致力于構(gòu)建更嚴(yán)謹(jǐn)、動態(tài)且與科研實踐深度契合的評估生態(tài)。
同時,平臺還將通過實時追蹤、自建、與社區(qū)共建等方式,維護(hù)動態(tài)更新的高質(zhì)量科學(xué)評測基準(zhǔn)數(shù)據(jù)庫,以期共同推進(jìn) AI 在 Science 領(lǐng)域基準(zhǔn)的進(jìn)步。
「棱鏡」(SciPrismaX) 科學(xué)評測平臺鏈接:https://prismax.opencompass.org.cn/
天文學(xué) 新浪科技公眾號“掌”握科技鮮聞 (微信搜索techsina或掃描左側(cè)二維碼關(guān)注)
相關(guān)新聞猜你喜歡
- 都體:尤文將姆班古拉出售給不萊梅,簽約5年轉(zhuǎn)會費1200萬歐
- 確立庫尼亞核心,拿下b費,買一個正牌組織后腰是唯一出路,否則阿莫林冬窗前必下課
- 羅馬諾:拉什福德加盟巴薩,here we go!
- 突然發(fā)現(xiàn)我團年輕人也要到了當(dāng)隊長的年紀(jì)了
- 2500萬!國米“被迫”賣泥頭車,21歲維羅納邊后衛(wèi)成為可靠接班人
- 此前報價6700萬歐??羅馬諾:迪亞斯堅持要離隊,拜仁將再次報價
- c羅和詹姆斯到底像在哪兒?
- 哈曼:反對高價簽迪亞斯&沃爾特馬德,拜仁該引進(jìn)格魯達(dá)&多納魯馬
- 恐怖數(shù)據(jù)!38歲梅西當(dāng)前生涯874球386助,制造進(jìn)球數(shù)1260球!