真實科研水平集體不及格!全新基準SFE給主流多模態LLM來了波暴擊

當前,真實準驅動科學研究的科研人工智能(AI for Science,AI4S)在單點取得了可觀的水平進展,實現了工具層面的集體革新,然而要成為「革命的不及M波暴擊工具」,需要采用「通專融合 AGI」方式。格全給主大模型的新基突破性能力逐步改變科學研究的模式,而大模型在科學領域的流多深度應用亟需科學的評測支撐。
現有科學評測面臨著兩大痛點:現有測試多聚焦知識記憶,模態而真實科研需要從原始科學數據感知到復雜推理的真實準全鏈條能力;天文、地球、科研生命和材料等領域存在大量未開發的水平多模態數據分析需求。
為此,集體上海人工智能實驗室 AI4S 團隊推出了?Scientists’ First Exam(以下簡稱 SFE)—— 系統評估多模態大模型(MLLMs)多學科、不及M波暴擊高難度的格全給主科學專業領域認知能力的評測基準。
SFE 首創「信號感知 - 屬性理解 - 對比推理」三級評估體系,涵蓋五大科學領域的 66 項高價值任務,采用原始科學數據和中英雙語問答形式。測試表明,盡管主流模型在傳統基準表現優異,但在 SFE 高階科學任務上仍面臨顯著挑戰(SOTA 大模型綜合得分僅為 30 左右)。SFE 通過系統全面地評測大模型在科學任務上的能力短板,為科學 AI 發展指明了突破方向。
三層認知框架評估科學能力的深度和廣度
SFE 構建了三層認知框架,包括:
科學信號感知(L1)
科學屬性理解(L2)
科學比較推理(L3)
通過這三個認知層級,SFE 考察模型從數據感知到高階推理的綜合能力。SFE 涵蓋了天文學、化學、地球科學、生命科學和材料科學五大領域,共包含 66 個由專家精心設計的高價值多模態任務。所有任務基于科學原始數據構建,以視覺問答(VQA)形式呈現,并支持中英文雙語。SFE 不僅考查深層次的領域知識和數據分析能力,也旨在提升科學研究效率,促進科學進步。
SFE 旨在全面評估 MLLMs 的科學能力的深度和廣度SFE 任務分布SFE 數據分布多學科領域專家共建數據集
SFE 的數據集構建與多學科領域專家進行了廣泛合作,包含三個關鍵階段:
結構設計,與專家共同確定高價值科學挑戰和方向;
任務設計,將科學方向細化為具體任務,通過專家設計和評審明確問題類型與認知層級;
基準搭建,精選科學原始數據,進行渲染和可視化,由專家撰寫高質量的 VQA 樣本。
SFE 數據收集框架圖。1. 根據科學前沿進展和領域專家建議,確定了 18 個科學方向。2. 邀請專家提出領域任務并提供基于三個認知水平的原始任務數據。3. 將任務數據可視化并進一步請領域專家對結果基準進行注釋。
評測揭示主流 MLLMs 在高階科學任務上面臨挑戰
基于 SFE,對 16 個主流的開源與閉源 MLLMs 進行了評測。為了降低評測過程中的隨機性,所有模型的 Temperature 參數都被統一設置為 0。同時,為了保證評測的公平性,所有模型的最大生成 Token 數也被統一限定為 1024。在此實驗設置下,SFE 觀察到以下關鍵現象:
閉源 MLLMs 的科學能力顯著優于開源 MLLMs
SFE 評測結果顯示,閉源大模型(如 GPT-o3、Claude-3.7-Sonnet)在科學認知能力上整體優于開源模型,平均領先 6-8%。
其中,GPT-03 與 Gemini-2.5-Pro 的表現差異超過 26%。造成這一顯著差距的主要原因在于,Gemini-2.5-Pro 在推理過程中進行了過多冗余的思考,導致 Token 消耗過快,最終未能完整輸出結論。而 GPT-o3 雖同為具備推理能力的模型,但能夠更有效地控制思考過程的冗余度,提高推理效率,因此獲得了更高的分數。這一結果進一步證明了?SFE 能有效區分不同模型的科學能力。
此外,同一系列模型內部也表現出明顯進步,例如 Claude-3.7-Sonnet 相比前代提升超過 7%。這一趨勢在 InternVL 模型系列中同樣存在,反映出模型架構與訓練方法的持續改進帶來的能力提升。
MLLMs 在 SFE 的不同學科之間表現出明顯性能差距
評測結果顯示,材料科學是各類模型表現最好的領域,GPT-o3 在該方向的英文任務中達到 63.44%,中文任務為 58.20%,即便是開源模型(如 Qwen2.5-VL-72b、InternVL-3-78B)也能超過 40%。這種優勢主要得益于材料科學任務的輸入結構化明顯(如相圖、X 射線衍射圖),模型可依賴其較強的符號化視覺信息處理能力,輸出結構化的科學答案。
相比之下,天文學任務則更具挑戰性,涉及光譜分析和天體物理參數的數值估算,因原始數據噪聲大、直觀性弱,當前模型普遍難以勝任。該現象反映了?SFE 能有效揭示 MLLMs 在不同類型科學推理上的優勢與不足。
MLLMs 的科學能力正在從知識理解到高階推理進行轉變
SFE 的三層認知框架顯示,最新的 MLLMs 在高階推理(L3)任務上表現提升顯著,而在理解類(L2)任務上的進步有限。例如,GPT-o3 在 L3 任務上的得分從 26.64%(GPT-4.1)提升到 36.48%,但 L2 分數幾乎無變化。這說明模型在推理能力、工具使用等方面進步,知識廣度則變化不大。
同樣,InternVL-3 英文 L3 任務也較前代提升 8%,這主要得益于其多模態預訓練和鏈式思維等新訓練策略。L2 任務進步微弱,進一步說明模型的提升主要來源于高階推理能力的架構與訓練創新。
閉源 MLLMs 在可擴展性上普遍優于開源模型
采用 Pass@k 指標評估模型生成高質量答案的能力,結果顯示,閉源模型(如 GPT-4.1-2025-04-14 和 Gemini-2.5-Flash)不僅初始表現更好(30.56% vs 26.09%),而且隨著 k 增加,性能提升也更明顯(30.56% → 37.75% vs 26.09% → 27.33%)。
這表明閉源模型在預訓練時或許使用了更豐富多樣的數據集,并在后訓練階段注重了探索(Exploration)與利用(Exploitation)的平衡,優于僅注重 Exploitation 的開源模型。
科學領域模型大小的 Scaling Law
在 SFE 評測下,不同大小的 MLLMs 表現出模型規模與科學能力提升并不總是成正比。例如,Qwen2.5-VL-72B 與 InternVL-3-78B 相較于自家小模型并未顯著提升,Qwen2.5-VL-72B 甚至低于 Qwen2.5-VL-7B,可能存在過擬合問題。
這表明在科學領域,模型擴大的同時需合理擴充科學數據,否則難以實現性能線性提升。
SciPrismaX科學評測平臺
共建 AI4Science 生態
除發布了 SFE 評測基準之外,研究團隊還構建了「棱鏡」(SciPrismaX) 科學評測平臺。平臺包含了模型能力、學科多樣性、評估策略、評估對象與評估工具五大模塊,覆蓋了 AI for Innovation、AI for computation 和 AI for Data 三層評估維度,致力于構建更嚴謹、動態且與科研實踐深度契合的評估生態。
同時,平臺還將通過實時追蹤、自建、與社區共建等方式,維護動態更新的高質量科學評測基準數據庫,以期共同推進 AI 在 Science 領域基準的進步。
「棱鏡」(SciPrismaX) 科學評測平臺鏈接:https://prismax.opencompass.org.cn/
“掌”握科技鮮聞 (微信搜索techsina或掃描左側二維碼關注)
相關新聞相關文章
- 來源:36氪冰塊玩高端,是不是智商稅?文|林川封面來源|pexels最近的天氣熱得讓人懷疑人生,太陽像個大火球狠狠地炙烤著大地,走在路上感覺鞋底都要被融化了一樣。于是人們在空調房里避暑,在冷飲中尋找慰2025-07-10
助力灣區數據要素流通 中國聯通(香港)創新研究院簽約發布跨境數據產品
?2025年7月7日,深港數據跨境產品發布會暨“國際跨境可信數據空間-深港站”啟動儀式在深圳前海國際人才港隆重舉行。本次發布會由深圳市前海管理局指導,深圳市前海大數據資源管理中心有限公司主辦,中國聯通2025-07-10- 快科技7月10日消息,氘代酸堿作為特殊的氘代化合物,因制備難度極大,長期以來價格遠超黃金。不過,中國科學技術大學研究團隊的一項突破性成果,正改寫這一局面。7月9日,該重要研究成果在線發表于《自然》。氘2025-07-10
- 各有關單位:根據有關規定并經專家評審等相關程序,我廳擬對“空地一體化連續變量量子保密通信示范網絡”等20個項目予以終止。現公示項目相關情況見附件),公示時間為2025年7月9日~2025年7月23日,2025-07-10
- 探尋游戲世界巔峰,最新三維游戲排行榜火熱出爐!揭示了人氣與下載量的雙重冠軍,帶你領略那些引領潮流、深受玩家喜愛的游戲之作。接下來,一起探索這十強之列的創新與精彩,滿足你對高畫質冒險與競技的無盡好奇。M2025-07-10
微星PAG G650LS PCIE5電源首發349元:全模金牌 異色12V
快科技7月9日消息,微星宣布,推出符合最新ATX 3.1和PCIe 5.1規范的PAG G650LS PCIE5電源,并已獲得80PLUS金牌認證,售價為349元。該系列首發650W型號,后續還將提供2025-07-10
最新評論