真實科研水平集體不及格！全新基準SFE給主流多模態LLM來了波暴擊

發布時間：2025-07-10 07:00:06 作者：玩站小弟

當前，驅動科學研究的人工智能AI for Science，AI4S）在單點取得了可觀的進展，實現了工具層面的革新，然而要成為「革命的工具」，需要采用「通專融合 AGI」方式。大模型的突破性能力逐步改變。

當前，真實準驅動科學研究的科研人工智能（AI for Science，AI4S）在單點取得了可觀的水平進展，實現了工具層面的集體革新，然而要成為「革命的不及M波暴擊工具」，需要采用「通專融合 AGI」方式。格全給主大模型的新基突破性能力逐步改變科學研究的模式，而大模型在科學領域的流多深度應用亟需科學的評測支撐。

現有科學評測面臨著兩大痛點：現有測試多聚焦知識記憶，模態而真實科研需要從原始科學數據感知到復雜推理的真實準全鏈條能力；天文、地球、科研生命和材料等領域存在大量未開發的水平多模態數據分析需求。

真實科研水平集體不及格！全新基準SFE給主流多模態LLM來了波暴擊

為此，集體上海人工智能實驗室 AI4S 團隊推出了?Scientists’ First Exam（以下簡稱 SFE）—— 系統評估多模態大模型（MLLMs）多學科、不及M波暴擊高難度的格全給主科學專業領域認知能力的評測基準。

真實科研水平集體不及格！全新基準SFE給主流多模態LLM來了波暴擊

SFE 首創「信號感知 - 屬性理解 - 對比推理」三級評估體系，涵蓋五大科學領域的 66 項高價值任務，采用原始科學數據和中英雙語問答形式。測試表明，盡管主流模型在傳統基準表現優異，但在 SFE 高階科學任務上仍面臨顯著挑戰（SOTA 大模型綜合得分僅為 30 左右）。SFE 通過系統全面地評測大模型在科學任務上的能力短板，為科學 AI 發展指明了突破方向。

真實科研水平集體不及格！全新基準SFE給主流多模態LLM來了波暴擊

主流 MLLM 在各種 Benchmark 上的性能

三層認知框架評估科學能力的深度和廣度

SFE 構建了三層認知框架，包括：

科學信號感知（L1）

科學屬性理解（L2）

科學比較推理（L3）

通過這三個認知層級，SFE 考察模型從數據感知到高階推理的綜合能力。SFE 涵蓋了天文學、化學、地球科學、生命科學和材料科學五大領域，共包含 66 個由專家精心設計的高價值多模態任務。所有任務基于科學原始數據構建，以視覺問答（VQA）形式呈現，并支持中英文雙語。SFE 不僅考查深層次的領域知識和數據分析能力，也旨在提升科學研究效率，促進科學進步。

SFE 旨在全面評估 MLLMs 的科學能力的深度和廣度SFE 任務分布SFE 數據分布

多學科領域專家共建數據集

SFE 的數據集構建與多學科領域專家進行了廣泛合作，包含三個關鍵階段：

結構設計，與專家共同確定高價值科學挑戰和方向；

任務設計，將科學方向細化為具體任務，通過專家設計和評審明確問題類型與認知層級；

基準搭建，精選科學原始數據，進行渲染和可視化，由專家撰寫高質量的 VQA 樣本。

SFE 數據收集框架圖。1. 根據科學前沿進展和領域專家建議，確定了 18 個科學方向。2. 邀請專家提出領域任務并提供基于三個認知水平的原始任務數據。3. 將任務數據可視化并進一步請領域專家對結果基準進行注釋。

評測揭示主流 MLLMs 在高階科學任務上面臨挑戰

基于 SFE，對 16 個主流的開源與閉源 MLLMs 進行了評測。為了降低評測過程中的隨機性，所有模型的 Temperature 參數都被統一設置為 0。同時，為了保證評測的公平性，所有模型的最大生成 Token 數也被統一限定為 1024。在此實驗設置下，SFE 觀察到以下關鍵現象：

閉源 MLLMs 的科學能力顯著優于開源 MLLMs

SFE 評測結果顯示，閉源大模型（如 GPT-o3、Claude-3.7-Sonnet）在科學認知能力上整體優于開源模型，平均領先 6-8%。

其中，GPT-03 與 Gemini-2.5-Pro 的表現差異超過 26%。造成這一顯著差距的主要原因在于，Gemini-2.5-Pro 在推理過程中進行了過多冗余的思考，導致 Token 消耗過快，最終未能完整輸出結論。而 GPT-o3 雖同為具備推理能力的模型，但能夠更有效地控制思考過程的冗余度，提高推理效率，因此獲得了更高的分數。這一結果進一步證明了?SFE 能有效區分不同模型的科學能力。

此外，同一系列模型內部也表現出明顯進步，例如 Claude-3.7-Sonnet 相比前代提升超過 7%。這一趨勢在 InternVL 模型系列中同樣存在，反映出模型架構與訓練方法的持續改進帶來的能力提升。

MLLMs 在 SFE 的不同學科之間表現出明顯性能差距

評測結果顯示，材料科學是各類模型表現最好的領域，GPT-o3 在該方向的英文任務中達到 63.44%，中文任務為 58.20%，即便是開源模型（如 Qwen2.5-VL-72b、InternVL-3-78B）也能超過 40%。這種優勢主要得益于材料科學任務的輸入結構化明顯（如相圖、X 射線衍射圖），模型可依賴其較強的符號化視覺信息處理能力，輸出結構化的科學答案。

相比之下，天文學任務則更具挑戰性，涉及光譜分析和天體物理參數的數值估算，因原始數據噪聲大、直觀性弱，當前模型普遍難以勝任。該現象反映了?SFE 能有效揭示 MLLMs 在不同類型科學推理上的優勢與不足。

MLLMs 的科學能力正在從知識理解到高階推理進行轉變

SFE 的三層認知框架顯示，最新的 MLLMs 在高階推理（L3）任務上表現提升顯著，而在理解類（L2）任務上的進步有限。例如，GPT-o3 在 L3 任務上的得分從 26.64%（GPT-4.1）提升到 36.48%，但 L2 分數幾乎無變化。這說明模型在推理能力、工具使用等方面進步，知識廣度則變化不大。

同樣，InternVL-3 英文 L3 任務也較前代提升 8%，這主要得益于其多模態預訓練和鏈式思維等新訓練策略。L2 任務進步微弱，進一步說明模型的提升主要來源于高階推理能力的架構與訓練創新。

閉源 MLLMs 在可擴展性上普遍優于開源模型

采用 Pass@k 指標評估模型生成高質量答案的能力，結果顯示，閉源模型（如 GPT-4.1-2025-04-14 和 Gemini-2.5-Flash）不僅初始表現更好（30.56% vs 26.09%），而且隨著 k 增加，性能提升也更明顯（30.56% → 37.75% vs 26.09% → 27.33%）。

這表明閉源模型在預訓練時或許使用了更豐富多樣的數據集，并在后訓練階段注重了探索（Exploration）與利用（Exploitation）的平衡，優于僅注重 Exploitation 的開源模型。

科學領域模型大小的 Scaling Law

在 SFE 評測下，不同大小的 MLLMs 表現出模型規模與科學能力提升并不總是成正比。例如，Qwen2.5-VL-72B 與 InternVL-3-78B 相較于自家小模型并未顯著提升，Qwen2.5-VL-72B 甚至低于 Qwen2.5-VL-7B，可能存在過擬合問題。

這表明在科學領域，模型擴大的同時需合理擴充科學數據，否則難以實現性能線性提升。

SciPrismaX科學評測平臺

共建 AI4Science 生態

除發布了 SFE 評測基準之外，研究團隊還構建了「棱鏡」（SciPrismaX）科學評測平臺。平臺包含了模型能力、學科多樣性、評估策略、評估對象與評估工具五大模塊，覆蓋了 AI for Innovation、AI for computation 和 AI for Data 三層評估維度，致力于構建更嚴謹、動態且與科研實踐深度契合的評估生態。

同時，平臺還將通過實時追蹤、自建、與社區共建等方式，維護動態更新的高質量科學評測基準數據庫，以期共同推進 AI 在 Science 領域基準的進步。

「棱鏡」（SciPrismaX）科學評測平臺鏈接：https://prismax.opencompass.org.cn/

關鍵詞 : 天文學新浪科技公眾號

“掌”握科技鮮聞（微信搜索techsina或掃描左側二維碼關注）