當(dāng)前位置：

「世界模型」也被潑冷水了？邢波等人揭開五大「硬傷」，提出新范式

時間:2025-07-12 08:57:25 出處:探索閱讀（143）

機(jī)器之心報道

編輯：澤南、世界水邢式+0

現(xiàn)在的模型世界模型，值得批判。也被硬傷

「世界模型」也被潑冷水了？邢波等人揭開五大「硬傷」，提出新范式

我們知道，潑冷大語言模型（LLM）是人揭通過預(yù)測對話的下一個單詞的形式產(chǎn)生輸出的。由此產(chǎn)生的提出對話、推理甚至創(chuàng)作能力已經(jīng)接近人類智力水平。新范

「世界模型」也被潑冷水了？邢波等人揭開五大「硬傷」，提出新范式

但目前看起來，世界水邢式ChatGPT 等大模型與真正的模型 AGI 還有肉眼可見的差距。如果我們能夠完美地模擬環(huán)境中每一個可能的也被硬傷未來，是潑冷否就可以創(chuàng)造出強(qiáng)大的 AI 了？回想一下人類：與 ChatGPT 不同，人類的人揭能力組成有具體技能、深度復(fù)雜能力的提出區(qū)分。

模擬推理的新范案例：一個人（可能是自私的）通過心理模擬多個可能結(jié)果來幫助一個哭泣的人。

人類可以執(zhí)行廣泛的世界水邢式復(fù)雜任務(wù)，所有這些任務(wù)都基于相同的人類大腦認(rèn)知架構(gòu)。是否存在一個人工智能系統(tǒng)也能完成所有這些任務(wù)呢？

近日，來自卡耐基梅隆大學(xué)（CMU）、沙特穆罕默德?本?扎耶德人工智能大學(xué)（MBZUAI）、加州大學(xué)圣迭戈分校（UCSD）的研究者們探討了當(dāng)前 AI 領(lǐng)域最前沿方向 —— 世界模型（World Models）的局限性。

論文：Critiques of World Models
論文鏈接：https://arxiv.org/abs/2507.05169

研究人員指出了構(gòu)建、訓(xùn)練世界模型的五個重點(diǎn)方面：1）識別并準(zhǔn)備包含目標(biāo)世界信息的訓(xùn)練數(shù)據(jù)；2）采用一種通用表征空間來表示潛在世界狀態(tài)，其含義可能比直接觀察到的數(shù)據(jù)更為豐富；3）設(shè)計能夠有效對表征進(jìn)行推理的架構(gòu)；4）選擇能正確指導(dǎo)模型訓(xùn)練的目標(biāo)函數(shù)；5）確定如何在決策系統(tǒng)中運(yùn)用世界模型。

基于此，作者提出了一種全新的世界模型架構(gòu) PAN（Physical, Agentic, and Nested AGI System），基于分層、多級和混合連續(xù) / 離散表示，并采用了生成式和自監(jiān)督學(xué)習(xí)框架。

研究者表示，PAN 世界模型的詳細(xì)信息及結(jié)果會很快在另一篇論文中展示。MBZUAI 校長、CMU 教授邢波在論文提交后轉(zhuǎn)推了這篇論文，并表示?PAN 模型即將發(fā)布 27B 的第一版，這將是第一個可運(yùn)行的通用世界模擬器。

對世界模型的批判

一個以 Yann LeCun 為代表的學(xué)派在構(gòu)建世界模型的五個維度 ——?數(shù)據(jù)、表征、架構(gòu)、目標(biāo)和用途。

該學(xué)派還為世界模型提出了如圖 4 所示的替代框架，其核心思想可以概括為「預(yù)測下一個表征」，而非「預(yù)測下一個數(shù)據(jù)」：

無文本預(yù)訓(xùn)練：該框架完全摒棄了文本數(shù)據(jù)，轉(zhuǎn)而采用如視頻、音頻、嗅覺等連續(xù)的感官數(shù)據(jù)。

固定維度的連續(xù)狀態(tài)嵌入

：給定感官輸入 o，一個編碼器 h 將世界狀態(tài)估計為一個具有固定維度的抽象連續(xù)嵌入

?（例如，

編碼器 - 編碼器架構(gòu)

：世界模型 f 基于動作輸入 a，以一種確定性的方式預(yù)測下一個狀態(tài)嵌入?

作為監(jiān)督學(xué)習(xí)的真實(shí)目標(biāo)。

，從而生成?

，而是再次應(yīng)用編碼器 h 處理真實(shí)的下一觀測?

。值得注意的是，該架構(gòu)不使用解碼器 g 來重構(gòu)下一個觀測?

潛在空間中的重構(gòu)損失

：該框架并非通過比較重構(gòu)的下一感官輸入?

與真實(shí)數(shù)據(jù)?

?之間的偏差之上（例如，使用 L2 損失?

?與自舉生成的真實(shí)目標(biāo)?

?來進(jìn)行監(jiān)督，而是將學(xué)習(xí)建立在預(yù)測的下一狀態(tài)?

通過模型預(yù)測控制（MPC）選擇動作

：給定當(dāng)前觀測?

?來優(yōu)化這一動作序列。

，并最終基于目標(biāo)進(jìn)展?

，然后使用世界模型 f 模擬未來的狀態(tài)?

，該框架傾向于先提出一個初始的動作序列?

盡管這些思路確實(shí)對當(dāng)前世界模型的一些實(shí)踐提出了合理的問題，并描繪了吸引人的解決方案，但作者認(rèn)為，當(dāng)以實(shí)現(xiàn)智能體推理和決策為目的，去構(gòu)建通用、可擴(kuò)展且魯棒的世界模型時，其每一項基本假設(shè)都會引入嚴(yán)重的局限性。

數(shù)據(jù)：關(guān)鍵在于信息密度，而非數(shù)據(jù)量

待批判的主張：感官輸入優(yōu)于文本輸入，因為來自物理世界的數(shù)據(jù)量遠(yuǎn)超文本（例如，一個四歲的孩子就已經(jīng)處理了 1.1×101??字節(jié)的視覺數(shù)據(jù)，而用于訓(xùn)練現(xiàn)代大語言模型的所有文本數(shù)據(jù)加起來也僅僅約 0.9×101??字節(jié)）。

作者的觀點(diǎn)：

盡管視頻等感官數(shù)據(jù)量大，但其信息冗余度高、語義含量低。相比之下，自然語言是人類經(jīng)驗的高度壓縮和抽象形式，它不僅能描述物理現(xiàn)實(shí)，還能編碼如「正義」、「動機(jī)」等無法直接觀察的抽象概念，并承載了人類的集體知識。

因此，通往通用人工智能的道路不能偏重于任何單一模態(tài)。視頻、文本、音頻等不同模態(tài)反映了經(jīng)驗的不同層面：視頻捕捉物理動態(tài)，而文本編碼抽象概念。一個成功的世界模型必須融合所有這些分層的數(shù)據(jù)，才能全面理解世界并處理多樣化的任務(wù)，忽略任何一個層面都會導(dǎo)致關(guān)鍵信息的缺失。

表示：連續(xù)？離散？還是兩者兼有？?

待批判的主張：世界狀態(tài)應(yīng)由連續(xù)嵌入來表征，而非離散的詞元，以便于進(jìn)行基于梯度的優(yōu)化。

作者的觀點(diǎn)：

僅用連續(xù)嵌入來表示世界狀態(tài)是脆弱的，因為它難以應(yīng)對感官數(shù)據(jù)中固有的噪聲和高變異性。人類認(rèn)知通過將原始感知?dú)w類為離散概念來解決此問題，而語言就是這些離散概念的載體，為抽象和推理提供了穩(wěn)定、可組合的基礎(chǔ) 。

理論上，離散符號序列（即「語言」）足以表達(dá)連續(xù)數(shù)據(jù)中任意精度的信息，并且如圖 5 所示，通過增加序列長度來擴(kuò)展其表達(dá)能力，遠(yuǎn)比擴(kuò)大詞匯表更高效。

因此，最佳路徑是采用混合表示?。這種方法結(jié)合了離散符號的穩(wěn)健性、可解釋性和結(jié)構(gòu)化推理能力，同時利用連續(xù)嵌入來捕捉細(xì)微的感官細(xì)節(jié)，從而實(shí)現(xiàn)優(yōu)勢互補(bǔ) 。

架構(gòu)：自回歸生成并非敵人?

待批判的主張：自回歸生成模型（例如 LLM）注定會失敗，因為它們最終必然會犯錯，并且無法對結(jié)果的不確定性進(jìn)行建模。

作者的觀點(diǎn)：

如論文圖 6（左半部分）所示，這種被批判的「編碼器 - 編碼器架構(gòu)」在潛在空間中進(jìn)行「確定性的下一嵌入預(yù)測」，但它在功能上仍是自回歸的，需要遞歸地預(yù)測未來狀態(tài)，因此并未真正避免其聲稱要解決的誤差累積問題。更關(guān)鍵的是，通過移除解碼器來避免重構(gòu)觀察數(shù)據(jù)，會導(dǎo)致模型學(xué)習(xí)到的潛在表示與真實(shí)世界脫節(jié)，難以診斷，甚至可能崩潰到無意義的解。

更好的方案不是拋棄生成模型，而是采用分層的生成式潛在預(yù)測（GLP）架構(gòu)，這在圖 6（右半部分）中得到了展示 ?。該架構(gòu)包含一個解碼器用于「生成式重構(gòu)」，其核心是一個由「增強(qiáng)的 LLM + 擴(kuò)散模型」構(gòu)成的分層世界模型。這種設(shè)計既能通過生成式解碼器確保模型與真實(shí)數(shù)據(jù)掛鉤，又能通過分層抽象來隔離底層噪聲，實(shí)現(xiàn)更魯棒、更強(qiáng)大的推理。

目標(biāo)：在數(shù)據(jù)空間還是潛在空間中學(xué)習(xí)？?

待批判的主張：概率性的數(shù)據(jù)重構(gòu)目標(biāo)（例如編碼器 - 解碼器方案）是行不通的，因為這類目標(biāo)難以處理，并且會迫使模型去預(yù)測不相關(guān)的細(xì)節(jié)。

作者的觀點(diǎn)：

如圖 7（左半部分）所示，在潛在空間計算重構(gòu)損失的方法，理論上存在「平凡解崩潰」的風(fēng)險，即模型可以輕易將所有輸入映射為常數(shù)來使損失為零，從而什么也學(xué)不到。為了防止崩潰，這類模型不得不依賴復(fù)雜且難以調(diào)試的正則化項。

相比之下，基于數(shù)據(jù)空間的生成式重構(gòu)目標(biāo)函數(shù)，如圖 7（右半部分）所示，要求模型預(yù)測并重構(gòu)出真實(shí)的下一刻觀察數(shù)據(jù)，并通過「生成式損失」進(jìn)行監(jiān)督。這從根本上避免了崩潰問題，為模型提供了穩(wěn)定、可靠且有意義的監(jiān)督信號。

圖 8 進(jìn)一步從理論上解釋了，潛在空間損失只是生成式損失的一個寬松的「上界代理」。這意味著，即使一個模型的潛在損失很低，也不能保證它在真實(shí)世界中的預(yù)測是準(zhǔn)確的，因為它可能遺漏了對任務(wù)至關(guān)重要的信息。

用途：模型預(yù)測控制（MPC）還是強(qiáng)化學(xué)習(xí)（RL）？?

待批判的主張：世界模型應(yīng)該用于模型預(yù)測控制（MPC），而不是強(qiáng)化學(xué)習(xí)（RL）框架，因為后者需要過多的試驗次數(shù)。

作者的觀點(diǎn)：

如論文圖 9（左半部分）所示，MPC 在決策時需要反復(fù)進(jìn)行「模擬下一個潛在狀態(tài)」和「基于目標(biāo)優(yōu)化動作」的循環(huán) ，這導(dǎo)致其計算開銷巨大，難以應(yīng)對快速變化的環(huán)境，并且通常視野有限，難以進(jìn)行長時程戰(zhàn)略規(guī)劃。

強(qiáng)化學(xué)習(xí)（RL）提供了一個更通用、靈活且可擴(kuò)展的范式，如圖 9（右半部分）所示。它將世界模型作為一個「模擬器」，讓一個獨(dú)立的智能體模型在其中探索并學(xué)習(xí) 。這個過程是用于「基于目標(biāo)用 RL 優(yōu)化智能體模型」，將巨大的計算成本從「決策時」轉(zhuǎn)移到了「訓(xùn)練時」。這使智能體不僅能快速行動，還能通過學(xué)習(xí)積累長期回報，進(jìn)行更具戰(zhàn)略性的長遠(yuǎn)規(guī)劃。

PAN 世界模型

基于對現(xiàn)有世界模型框架的批評，作者得出了關(guān)于通用世界模型設(shè)計原則。PAN 架構(gòu)基于以下設(shè)計原則：1）涵蓋所有體驗?zāi)Ｊ降臄?shù)據(jù)；2）結(jié)合連續(xù)與離散表示；3）基于增強(qiáng)的大語言模型（LLM）主干的分層生成建模，以及生成式潛在預(yù)測架構(gòu)；4）以觀察數(shù)據(jù)為基礎(chǔ)的生成損失；5）利用世界模型通過強(qiáng)化學(xué)習(xí)（RL）來模擬體驗，以訓(xùn)練智能體。

一個真正多功能且通用的世界模型必須基于能夠反映現(xiàn)實(shí)世界推理需求全部復(fù)雜性的任務(wù)。總體而言，PAN 通過其分層、多級和混合表示架構(gòu)，以及編碼器 - 解碼器管道，將感知、行動、信念、模擬信念和模擬世界等要素串聯(lián)起來。作為通用生成模型，PAN 能夠模擬現(xiàn)實(shí)世界中可操作的可能性，使智能體能夠進(jìn)行有目的的推理。PAN 并不回避原始感知輸入的多樣性，而是將其模塊化和組織化，從而實(shí)現(xiàn)對每一層體驗的更豐富內(nèi)部模擬，增強(qiáng)智能體的推理和規(guī)劃能力。

在訓(xùn)練時，PAN 需要首先通過自我監(jiān)督（例如使用大語言模型處理文本數(shù)據(jù)，使用擴(kuò)散模型處理視頻數(shù)據(jù)）獨(dú)立預(yù)訓(xùn)練每個模塊。這些特定于模態(tài)和級別的模塊在后訓(xùn)練階段通過多模態(tài)數(shù)據(jù)、級聯(lián)嵌入和梯度傳播進(jìn)行對齊或整合。

PAN 架構(gòu)的一大優(yōu)勢在于其數(shù)據(jù)處理效率，這得益于其采用的多尺度和分層的世界觀。事實(shí)上，PAN 的預(yù)訓(xùn)練 - 對齊 / 集成策略能夠充分利用感覺信息簡歷知識基礎(chǔ)，利用 LLM 促進(jìn)跨模態(tài)的泛化能力。

作者概述了一種利用世界模型進(jìn)行模擬推理的智能體架構(gòu)。PAN 自然地融入這一范式，不僅作為視頻生成器，更作為一個豐富的內(nèi)部沙盒，用于模擬、實(shí)驗和預(yù)見未來。

最后，作者認(rèn)為，世界模型不是關(guān)于視頻或虛擬現(xiàn)實(shí)的生成，而是關(guān)于模擬現(xiàn)實(shí)世界中所有可能性，因此，目前的范式和努力仍然是原始的。作者希望，通過批判性、分析性和建設(shè)性的剖析一些關(guān)于如何構(gòu)建世界模型的流行思想，以及 PAN 架構(gòu)，能夠激發(fā)理論和實(shí)施更強(qiáng)大世界模型的進(jìn)一步發(fā)展。

由 PAN 世界模型驅(qū)動的模擬推理智能體。與依賴反應(yīng)策略的傳統(tǒng)強(qiáng)化學(xué)習(xí)智能體，或在決策時刻昂貴地模擬未來的模型預(yù)測控制（MPC）智能體不同，其利用了 PAN 生成的預(yù)計算模擬緩存。在決策過程中，智能體根據(jù)當(dāng)前的信念和預(yù)期結(jié)果選擇行動，從而實(shí)現(xiàn)更高效、靈活和有目的的規(guī)劃方式。這種方式更接近人類推理的靈活性。

更詳細(xì)內(nèi)容，請查閱論文原文。

關(guān)鍵詞 : 智能體新浪科技公眾號

“掌”握科技鮮聞（微信搜索techsina或掃描左側(cè)二維碼關(guān)注）

相關(guān)新聞

分享到：

上一篇：意媒：尤文曼聯(lián)就桑喬轉(zhuǎn)會達(dá)協(xié)議，桑喬要求曼聯(lián)付500萬歐遣散費(fèi)

下一篇：足協(xié)發(fā)布招標(biāo)公告限價1068萬打造中國足球行業(yè)大模型

溫馨提示：以上內(nèi)容和圖片整理于網(wǎng)絡(luò)，僅供參考，希望對您有幫助！如有侵權(quán)行為請聯(lián)系刪除！

亚洲性欧美在线se-亚洲性欧美色另-亚洲性免费-亚洲性猛交xxxx-亚洲性久久久影院-亚洲性精品

知識分享

「世界模型」也被潑冷水了？邢波等人揭開五大「硬傷」，提出新范式

猜你喜歡

熱門排行

看了又看

最新標(biāo)簽

友情鏈接：