真實科研水平集體不及格!全新基準SFE給主流多模態(tài)LLM來了波暴擊

當前,真實準驅動科學研究的科研人工智能(AI for Science,AI4S)在單點取得了可觀的水平進展,實現了工具層面的集體革新,然而要成為「革命的不及M波暴擊工具」,需要采用「通專融合 AGI」方式。格全給主大模型的新基突破性能力逐步改變科學研究的模式,而大模型在科學領域的流多深度應用亟需科學的評測支撐。
現有科學評測面臨著兩大痛點:現有測試多聚焦知識記憶,模態(tài)而真實科研需要從原始科學數據感知到復雜推理的真實準全鏈條能力;天文、地球、科研生命和材料等領域存在大量未開發(fā)的水平多模態(tài)數據分析需求。
為此,集體上海人工智能實驗室 AI4S 團隊推出了?Scientists’ First Exam(以下簡稱 SFE)—— 系統評估多模態(tài)大模型(MLLMs)多學科、不及M波暴擊高難度的格全給主科學專業(yè)領域認知能力的評測基準。
SFE 首創(chuàng)「信號感知 - 屬性理解 - 對比推理」三級評估體系,涵蓋五大科學領域的 66 項高價值任務,采用原始科學數據和中英雙語問答形式。測試表明,盡管主流模型在傳統基準表現優(yōu)異,但在 SFE 高階科學任務上仍面臨顯著挑戰(zhàn)(SOTA 大模型綜合得分僅為 30 左右)。SFE 通過系統全面地評測大模型在科學任務上的能力短板,為科學 AI 發(fā)展指明了突破方向。
三層認知框架評估科學能力的深度和廣度
SFE 構建了三層認知框架,包括:
科學信號感知(L1)
科學屬性理解(L2)
科學比較推理(L3)
通過這三個認知層級,SFE 考察模型從數據感知到高階推理的綜合能力。SFE 涵蓋了天文學、化學、地球科學、生命科學和材料科學五大領域,共包含 66 個由專家精心設計的高價值多模態(tài)任務。所有任務基于科學原始數據構建,以視覺問答(VQA)形式呈現,并支持中英文雙語。SFE 不僅考查深層次的領域知識和數據分析能力,也旨在提升科學研究效率,促進科學進步。
SFE 旨在全面評估 MLLMs 的科學能力的深度和廣度SFE 任務分布SFE 數據分布多學科領域專家共建數據集
SFE 的數據集構建與多學科領域專家進行了廣泛合作,包含三個關鍵階段:
結構設計,與專家共同確定高價值科學挑戰(zhàn)和方向;
任務設計,將科學方向細化為具體任務,通過專家設計和評審明確問題類型與認知層級;
基準搭建,精選科學原始數據,進行渲染和可視化,由專家撰寫高質量的 VQA 樣本。
SFE 數據收集框架圖。1. 根據科學前沿進展和領域專家建議,確定了 18 個科學方向。2. 邀請專家提出領域任務并提供基于三個認知水平的原始任務數據。3. 將任務數據可視化并進一步請領域專家對結果基準進行注釋。
評測揭示主流 MLLMs 在高階科學任務上面臨挑戰(zhàn)
基于 SFE,對 16 個主流的開源與閉源 MLLMs 進行了評測。為了降低評測過程中的隨機性,所有模型的 Temperature 參數都被統一設置為 0。同時,為了保證評測的公平性,所有模型的最大生成 Token 數也被統一限定為 1024。在此實驗設置下,SFE 觀察到以下關鍵現象:
閉源 MLLMs 的科學能力顯著優(yōu)于開源 MLLMs
SFE 評測結果顯示,閉源大模型(如 GPT-o3、Claude-3.7-Sonnet)在科學認知能力上整體優(yōu)于開源模型,平均領先 6-8%。
其中,GPT-03 與 Gemini-2.5-Pro 的表現差異超過 26%。造成這一顯著差距的主要原因在于,Gemini-2.5-Pro 在推理過程中進行了過多冗余的思考,導致 Token 消耗過快,最終未能完整輸出結論。而 GPT-o3 雖同為具備推理能力的模型,但能夠更有效地控制思考過程的冗余度,提高推理效率,因此獲得了更高的分數。這一結果進一步證明了?SFE 能有效區(qū)分不同模型的科學能力。
此外,同一系列模型內部也表現出明顯進步,例如 Claude-3.7-Sonnet 相比前代提升超過 7%。這一趨勢在 InternVL 模型系列中同樣存在,反映出模型架構與訓練方法的持續(xù)改進帶來的能力提升。
MLLMs 在 SFE 的不同學科之間表現出明顯性能差距
評測結果顯示,材料科學是各類模型表現最好的領域,GPT-o3 在該方向的英文任務中達到 63.44%,中文任務為 58.20%,即便是開源模型(如 Qwen2.5-VL-72b、InternVL-3-78B)也能超過 40%。這種優(yōu)勢主要得益于材料科學任務的輸入結構化明顯(如相圖、X 射線衍射圖),模型可依賴其較強的符號化視覺信息處理能力,輸出結構化的科學答案。
相比之下,天文學任務則更具挑戰(zhàn)性,涉及光譜分析和天體物理參數的數值估算,因原始數據噪聲大、直觀性弱,當前模型普遍難以勝任。該現象反映了?SFE 能有效揭示 MLLMs 在不同類型科學推理上的優(yōu)勢與不足。
MLLMs 的科學能力正在從知識理解到高階推理進行轉變
SFE 的三層認知框架顯示,最新的 MLLMs 在高階推理(L3)任務上表現提升顯著,而在理解類(L2)任務上的進步有限。例如,GPT-o3 在 L3 任務上的得分從 26.64%(GPT-4.1)提升到 36.48%,但 L2 分數幾乎無變化。這說明模型在推理能力、工具使用等方面進步,知識廣度則變化不大。
同樣,InternVL-3 英文 L3 任務也較前代提升 8%,這主要得益于其多模態(tài)預訓練和鏈式思維等新訓練策略。L2 任務進步微弱,進一步說明模型的提升主要來源于高階推理能力的架構與訓練創(chuàng)新。
閉源 MLLMs 在可擴展性上普遍優(yōu)于開源模型
采用 Pass@k 指標評估模型生成高質量答案的能力,結果顯示,閉源模型(如 GPT-4.1-2025-04-14 和 Gemini-2.5-Flash)不僅初始表現更好(30.56% vs 26.09%),而且隨著 k 增加,性能提升也更明顯(30.56% → 37.75% vs 26.09% → 27.33%)。
這表明閉源模型在預訓練時或許使用了更豐富多樣的數據集,并在后訓練階段注重了探索(Exploration)與利用(Exploitation)的平衡,優(yōu)于僅注重 Exploitation 的開源模型。
科學領域模型大小的 Scaling Law
在 SFE 評測下,不同大小的 MLLMs 表現出模型規(guī)模與科學能力提升并不總是成正比。例如,Qwen2.5-VL-72B 與 InternVL-3-78B 相較于自家小模型并未顯著提升,Qwen2.5-VL-72B 甚至低于 Qwen2.5-VL-7B,可能存在過擬合問題。
這表明在科學領域,模型擴大的同時需合理擴充科學數據,否則難以實現性能線性提升。
SciPrismaX科學評測平臺
共建 AI4Science 生態(tài)
除發(fā)布了 SFE 評測基準之外,研究團隊還構建了「棱鏡」(SciPrismaX) 科學評測平臺。平臺包含了模型能力、學科多樣性、評估策略、評估對象與評估工具五大模塊,覆蓋了 AI for Innovation、AI for computation 和 AI for Data 三層評估維度,致力于構建更嚴謹、動態(tài)且與科研實踐深度契合的評估生態(tài)。
同時,平臺還將通過實時追蹤、自建、與社區(qū)共建等方式,維護動態(tài)更新的高質量科學評測基準數據庫,以期共同推進 AI 在 Science 領域基準的進步。
「棱鏡」(SciPrismaX) 科學評測平臺鏈接:https://prismax.opencompass.org.cn/
天文學 新浪科技公眾號“掌”握科技鮮聞 (微信搜索techsina或掃描左側二維碼關注)
相關新聞相關文章
- 來源:澎湃新聞6月29日晚間,蘇超南通隊主場 4比0擊敗宿遷,成為十三太保中唯一一支4戰(zhàn)全勝的球隊,目前少賽一輪排名蘇超積分榜第2位。就在蘇超激戰(zhàn)的同時,南通在全國青少年校園足球聯賽中也斬獲頗豐——南2025-07-10
【20250709收評】3500點得而復失,謹防周四效應再襲
2025年07月09日 21:13:57?【盤面】周三滬深兩市雙雙微幅高開,盤初銀行相對疲軟,科技股活躍,個股漲多跌少,不過隨著銀行走高,科技股被明顯降溫,科創(chuàng)板震蕩下行維持弱勢震蕩;午后大盤震蕩走低2025-07-10- IT之家 7 月 9 日消息,據外媒 The Verge 今日報道,宜家與 Sonos “分手”后,品牌把未來音頻路線押在藍牙與 Spotify Tap 等一鍵聽歌功能上。宜家照明與家電品類經理大衛(wèi)?2025-07-10
- IT之家 7 月 9 日消息,據外媒 The Verge 今日報道,宜家與 Sonos “分手”后,品牌把未來音頻路線押在藍牙與 Spotify Tap 等一鍵聽歌功能上。宜家照明與家電品類經理大衛(wèi)?2025-07-10
SlowMist:GMX v1 存在設計缺陷,GLP 價格可被重入攻擊操控
吳說獲悉,針對 GMX 黑客攻擊事件 SlowMist 指出,本次攻擊的根本原因在于 GMX v1 存在設計缺陷:做空操作會立即更新全局平均做空價格globalShortAveragePrices),2025-07-1014萬的車豪華配置對標邁巴赫!奇瑞風云A9L上市24小時鎖單50287臺
快科技7月9日消息,奇瑞風云品牌旗艦轎車風云A9L已于昨晚上市,共推出4款車型,售價區(qū)間為14.99-20.79萬,置換補貼價13.99-19.79萬。車輛最大的亮點就是低價高配,顏值在線,官方在發(fā)布2025-07-10
最新評論