「世界模型」也被潑冷水了?邢波等人揭開(kāi)五大「硬傷」,提出新范式
時(shí)間:2025-07-11 00:58:05 出處:探索閱讀(143)
機(jī)器之心報(bào)道
編輯:澤南、世界水邢式+0
現(xiàn)在的模型世界模型,值得批判。也被硬傷
我們知道,潑冷大語(yǔ)言模型(LLM)是人揭通過(guò)預(yù)測(cè)對(duì)話(huà)的下一個(gè)單詞的形式產(chǎn)生輸出的。由此產(chǎn)生的提出對(duì)話(huà)、推理甚至創(chuàng)作能力已經(jīng)接近人類(lèi)智力水平。新范
但目前看起來(lái),世界水邢式ChatGPT 等大模型與真正的模型 AGI 還有肉眼可見(jiàn)的差距。如果我們能夠完美地模擬環(huán)境中每一個(gè)可能的也被硬傷未來(lái),是潑冷否就可以創(chuàng)造出強(qiáng)大的 AI 了?回想一下人類(lèi):與 ChatGPT 不同,人類(lèi)的人揭能力組成有具體技能、深度復(fù)雜能力的提出區(qū)分。
模擬推理的新范案例:一個(gè)人(可能是自私的)通過(guò)心理模擬多個(gè)可能結(jié)果來(lái)幫助一個(gè)哭泣的人。人類(lèi)可以執(zhí)行廣泛的世界水邢式復(fù)雜任務(wù),所有這些任務(wù)都基于相同的人類(lèi)大腦認(rèn)知架構(gòu)。是否存在一個(gè)人工智能系統(tǒng)也能完成所有這些任務(wù)呢?
近日,來(lái)自卡耐基梅隆大學(xué)(CMU)、沙特穆罕默德?本?扎耶德人工智能大學(xué)(MBZUAI)、加州大學(xué)圣迭戈分校(UCSD)的研究者們探討了當(dāng)前 AI 領(lǐng)域最前沿方向 —— 世界模型(World Models)的局限性。
論文:Critiques of World Models
論文鏈接:https://arxiv.org/abs/2507.05169
研究人員指出了構(gòu)建、訓(xùn)練世界模型的五個(gè)重點(diǎn)方面:1)識(shí)別并準(zhǔn)備包含目標(biāo)世界信息的訓(xùn)練數(shù)據(jù);2)采用一種通用表征空間來(lái)表示潛在世界狀態(tài),其含義可能比直接觀察到的數(shù)據(jù)更為豐富;3)設(shè)計(jì)能夠有效對(duì)表征進(jìn)行推理的架構(gòu);4)選擇能正確指導(dǎo)模型訓(xùn)練的目標(biāo)函數(shù);5)確定如何在決策系統(tǒng)中運(yùn)用世界模型。
基于此,作者提出了一種全新的世界模型架構(gòu) PAN(Physical, Agentic, and Nested AGI System),基于分層、多級(jí)和混合連續(xù) / 離散表示,并采用了生成式和自監(jiān)督學(xué)習(xí)框架。
研究者表示,PAN 世界模型的詳細(xì)信息及結(jié)果會(huì)很快在另一篇論文中展示。MBZUAI 校長(zhǎng)、CMU 教授邢波在論文提交后轉(zhuǎn)推了這篇論文,并表示?PAN 模型即將發(fā)布 27B 的第一版,這將是第一個(gè)可運(yùn)行的通用世界模擬器。
對(duì)世界模型的批判
一個(gè)以 Yann LeCun 為代表的學(xué)派在構(gòu)建世界模型的五個(gè)維度 ——?數(shù)據(jù)、表征、架構(gòu)、目標(biāo)和用途。
該學(xué)派還為世界模型提出了如圖 4 所示的替代框架,其核心思想可以概括為「預(yù)測(cè)下一個(gè)表征」,而非「預(yù)測(cè)下一個(gè)數(shù)據(jù)」:
無(wú)文本預(yù)訓(xùn)練:該框架完全摒棄了文本數(shù)據(jù),轉(zhuǎn)而采用如視頻、音頻、嗅覺(jué)等連續(xù)的感官數(shù)據(jù)。
固定維度的連續(xù)狀態(tài)嵌入
:給定感官輸入 o,一個(gè)編碼器 h 將世界狀態(tài)估計(jì)為一個(gè)具有固定維度的抽象連續(xù)嵌入
?(例如,
編碼器 - 編碼器架構(gòu)
:世界模型 f 基于動(dòng)作輸入 a,以一種確定性的方式預(yù)測(cè)下一個(gè)狀態(tài)嵌入?
作為監(jiān)督學(xué)習(xí)的真實(shí)目標(biāo)。
,從而生成?
,而是再次應(yīng)用編碼器 h 處理真實(shí)的下一觀測(cè)?
。值得注意的是,該架構(gòu)不使用解碼器 g 來(lái)重構(gòu)下一個(gè)觀測(cè)?
潛在空間中的重構(gòu)損失
:該框架并非通過(guò)比較重構(gòu)的下一感官輸入?
與真實(shí)數(shù)據(jù)?
?之間的偏差之上(例如,使用 L2 損失?
?與自舉生成的真實(shí)目標(biāo)?
?來(lái)進(jìn)行監(jiān)督,而是將學(xué)習(xí)建立在預(yù)測(cè)的下一狀態(tài)?
通過(guò)模型預(yù)測(cè)控制(MPC)選擇動(dòng)作
:給定當(dāng)前觀測(cè)?
?來(lái)優(yōu)化這一動(dòng)作序列。
,并最終基于目標(biāo)進(jìn)展?
,然后使用世界模型 f 模擬未來(lái)的狀態(tài)?
,該框架傾向于先提出一個(gè)初始的動(dòng)作序列?
盡管這些思路確實(shí)對(duì)當(dāng)前世界模型的一些實(shí)踐提出了合理的問(wèn)題,并描繪了吸引人的解決方案,但作者認(rèn)為,當(dāng)以實(shí)現(xiàn)智能體推理和決策為目的,去構(gòu)建通用、可擴(kuò)展且魯棒的世界模型時(shí),其每一項(xiàng)基本假設(shè)都會(huì)引入嚴(yán)重的局限性。
數(shù)據(jù):關(guān)鍵在于信息密度,而非數(shù)據(jù)量
待批判的主張:感官輸入優(yōu)于文本輸入,因?yàn)閬?lái)自物理世界的數(shù)據(jù)量遠(yuǎn)超文本(例如,一個(gè)四歲的孩子就已經(jīng)處理了 1.1×101??字節(jié)的視覺(jué)數(shù)據(jù),而用于訓(xùn)練現(xiàn)代大語(yǔ)言模型的所有文本數(shù)據(jù)加起來(lái)也僅僅約 0.9×101??字節(jié))。
作者的觀點(diǎn):
盡管視頻等感官數(shù)據(jù)量大,但其信息冗余度高、語(yǔ)義含量低。相比之下,自然語(yǔ)言是人類(lèi)經(jīng)驗(yàn)的高度壓縮和抽象形式,它不僅能描述物理現(xiàn)實(shí),還能編碼如「正義」、「動(dòng)機(jī)」等無(wú)法直接觀察的抽象概念,并承載了人類(lèi)的集體知識(shí)。
因此,通往通用人工智能的道路不能偏重于任何單一模態(tài)。視頻、文本、音頻等不同模態(tài)反映了經(jīng)驗(yàn)的不同層面:視頻捕捉物理動(dòng)態(tài),而文本編碼抽象概念。一個(gè)成功的世界模型必須融合所有這些分層的數(shù)據(jù),才能全面理解世界并處理多樣化的任務(wù),忽略任何一個(gè)層面都會(huì)導(dǎo)致關(guān)鍵信息的缺失。
表示:連續(xù)?離散?還是兩者兼有??
待批判的主張:世界狀態(tài)應(yīng)由連續(xù)嵌入來(lái)表征,而非離散的詞元,以便于進(jìn)行基于梯度的優(yōu)化。
作者的觀點(diǎn):
僅用連續(xù)嵌入來(lái)表示世界狀態(tài)是脆弱的,因?yàn)樗y以應(yīng)對(duì)感官數(shù)據(jù)中固有的噪聲和高變異性 。人類(lèi)認(rèn)知通過(guò)將原始感知?dú)w類(lèi)為離散概念來(lái)解決此問(wèn)題,而語(yǔ)言就是這些離散概念的載體,為抽象和推理提供了穩(wěn)定、可組合的基礎(chǔ) 。
理論上,離散符號(hào)序列(即「語(yǔ)言」)足以表達(dá)連續(xù)數(shù)據(jù)中任意精度的信息,并且如圖 5 所示,通過(guò)增加序列長(zhǎng)度來(lái)擴(kuò)展其表達(dá)能力,遠(yuǎn)比擴(kuò)大詞匯表更高效 。
因此,最佳路徑是采用混合表示?。這種方法結(jié)合了離散符號(hào)的穩(wěn)健性、可解釋性和結(jié)構(gòu)化推理能力,同時(shí)利用連續(xù)嵌入來(lái)捕捉細(xì)微的感官細(xì)節(jié),從而實(shí)現(xiàn)優(yōu)勢(shì)互補(bǔ) 。
架構(gòu):自回歸生成并非敵人?
待批判的主張:自回歸生成模型(例如 LLM)注定會(huì)失敗,因?yàn)樗鼈冏罱K必然會(huì)犯錯(cuò),并且無(wú)法對(duì)結(jié)果的不確定性進(jìn)行建模。
作者的觀點(diǎn):
如論文圖 6(左半部分)所示,這種被批判的「編碼器 - 編碼器架構(gòu)」在潛在空間中進(jìn)行「確定性的下一嵌入預(yù)測(cè)」 ,但它在功能上仍是自回歸的,需要遞歸地預(yù)測(cè)未來(lái)狀態(tài),因此并未真正避免其聲稱(chēng)要解決的誤差累積問(wèn)題 。更關(guān)鍵的是,通過(guò)移除解碼器來(lái)避免重構(gòu)觀察數(shù)據(jù),會(huì)導(dǎo)致模型學(xué)習(xí)到的潛在表示與真實(shí)世界脫節(jié),難以診斷,甚至可能崩潰到無(wú)意義的解 。
更好的方案不是拋棄生成模型,而是采用分層的生成式潛在預(yù)測(cè)(GLP)架構(gòu),這在圖 6(右半部分)中得到了展示 ?。該架構(gòu)包含一個(gè)解碼器用于「生成式重構(gòu)」 ,其核心是一個(gè)由「增強(qiáng)的 LLM + 擴(kuò)散模型」構(gòu)成的分層世界模型 。這種設(shè)計(jì)既能通過(guò)生成式解碼器確保模型與真實(shí)數(shù)據(jù)掛鉤,又能通過(guò)分層抽象來(lái)隔離底層噪聲,實(shí)現(xiàn)更魯棒、更強(qiáng)大的推理 。
目標(biāo):在數(shù)據(jù)空間還是潛在空間中學(xué)習(xí)??
待批判的主張:概率性的數(shù)據(jù)重構(gòu)目標(biāo)(例如編碼器 - 解碼器方案)是行不通的,因?yàn)檫@類(lèi)目標(biāo)難以處理,并且會(huì)迫使模型去預(yù)測(cè)不相關(guān)的細(xì)節(jié)。
作者的觀點(diǎn):
如圖 7(左半部分)所示,在潛在空間計(jì)算重構(gòu)損失的方法,理論上存在「平凡解崩潰」的風(fēng)險(xiǎn) ,即模型可以輕易將所有輸入映射為常數(shù)來(lái)使損失為零,從而什么也學(xué)不到 。為了防止崩潰,這類(lèi)模型不得不依賴(lài)復(fù)雜且難以調(diào)試的正則化項(xiàng)。
相比之下,基于數(shù)據(jù)空間的生成式重構(gòu)目標(biāo)函數(shù),如圖 7(右半部分)所示,要求模型預(yù)測(cè)并重構(gòu)出真實(shí)的下一刻觀察數(shù)據(jù),并通過(guò)「生成式損失」進(jìn)行監(jiān)督 。這從根本上避免了崩潰問(wèn)題 ,為模型提供了穩(wěn)定、可靠且有意義的監(jiān)督信號(hào) 。
圖 8 進(jìn)一步從理論上解釋了,潛在空間損失只是生成式損失的一個(gè)寬松的「上界代理」 。這意味著,即使一個(gè)模型的潛在損失很低,也不能保證它在真實(shí)世界中的預(yù)測(cè)是準(zhǔn)確的,因?yàn)樗赡苓z漏了對(duì)任務(wù)至關(guān)重要的信息 。
用途:模型預(yù)測(cè)控制(MPC)還是強(qiáng)化學(xué)習(xí)(RL)??
待批判的主張:世界模型應(yīng)該用于模型預(yù)測(cè)控制(MPC),而不是強(qiáng)化學(xué)習(xí)(RL)框架,因?yàn)楹笳咝枰^(guò)多的試驗(yàn)次數(shù)。
作者的觀點(diǎn):
如論文圖 9(左半部分)所示,MPC 在決策時(shí)需要反復(fù)進(jìn)行「模擬下一個(gè)潛在狀態(tài)」和「基于目標(biāo)優(yōu)化動(dòng)作」的循環(huán) ,這導(dǎo)致其計(jì)算開(kāi)銷(xiāo)巨大,難以應(yīng)對(duì)快速變化的環(huán)境,并且通常視野有限,難以進(jìn)行長(zhǎng)時(shí)程戰(zhàn)略規(guī)劃 。
強(qiáng)化學(xué)習(xí)(RL)提供了一個(gè)更通用、靈活且可擴(kuò)展的范式,如圖 9(右半部分)所示 。它將世界模型作為一個(gè)「模擬器」,讓一個(gè)獨(dú)立的智能體模型在其中探索并學(xué)習(xí) 。這個(gè)過(guò)程是用于「基于目標(biāo)用 RL 優(yōu)化智能體模型」 ,將巨大的計(jì)算成本從「決策時(shí)」轉(zhuǎn)移到了「訓(xùn)練時(shí)」 。這使智能體不僅能快速行動(dòng),還能通過(guò)學(xué)習(xí)積累長(zhǎng)期回報(bào),進(jìn)行更具戰(zhàn)略性的長(zhǎng)遠(yuǎn)規(guī)劃 。
PAN 世界模型
基于對(duì)現(xiàn)有世界模型框架的批評(píng),作者得出了關(guān)于通用世界模型設(shè)計(jì)原則。PAN 架構(gòu)基于以下設(shè)計(jì)原則:1)涵蓋所有體驗(yàn)?zāi)J降臄?shù)據(jù);2)結(jié)合連續(xù)與離散表示;3)基于增強(qiáng)的大語(yǔ)言模型(LLM)主干的分層生成建模,以及生成式潛在預(yù)測(cè)架構(gòu);4)以觀察數(shù)據(jù)為基礎(chǔ)的生成損失;5)利用世界模型通過(guò)強(qiáng)化學(xué)習(xí)(RL)來(lái)模擬體驗(yàn),以訓(xùn)練智能體。
一個(gè)真正多功能且通用的世界模型必須基于能夠反映現(xiàn)實(shí)世界推理需求全部復(fù)雜性的任務(wù)。總體而言,PAN 通過(guò)其分層、多級(jí)和混合表示架構(gòu),以及編碼器 - 解碼器管道,將感知、行動(dòng)、信念、模擬信念和模擬世界等要素串聯(lián)起來(lái)。作為通用生成模型,PAN 能夠模擬現(xiàn)實(shí)世界中可操作的可能性,使智能體能夠進(jìn)行有目的的推理。PAN 并不回避原始感知輸入的多樣性,而是將其模塊化和組織化,從而實(shí)現(xiàn)對(duì)每一層體驗(yàn)的更豐富內(nèi)部模擬,增強(qiáng)智能體的推理和規(guī)劃能力。
在訓(xùn)練時(shí),PAN 需要首先通過(guò)自我監(jiān)督(例如使用大語(yǔ)言模型處理文本數(shù)據(jù),使用擴(kuò)散模型處理視頻數(shù)據(jù))獨(dú)立預(yù)訓(xùn)練每個(gè)模塊。這些特定于模態(tài)和級(jí)別的模塊在后訓(xùn)練階段通過(guò)多模態(tài)數(shù)據(jù)、級(jí)聯(lián)嵌入和梯度傳播進(jìn)行對(duì)齊或整合。
PAN 架構(gòu)的一大優(yōu)勢(shì)在于其數(shù)據(jù)處理效率,這得益于其采用的多尺度和分層的世界觀。事實(shí)上,PAN 的預(yù)訓(xùn)練 - 對(duì)齊 / 集成策略能夠充分利用感覺(jué)信息簡(jiǎn)歷知識(shí)基礎(chǔ),利用 LLM 促進(jìn)跨模態(tài)的泛化能力。
作者概述了一種利用世界模型進(jìn)行模擬推理的智能體架構(gòu)。PAN 自然地融入這一范式,不僅作為視頻生成器,更作為一個(gè)豐富的內(nèi)部沙盒,用于模擬、實(shí)驗(yàn)和預(yù)見(jiàn)未來(lái)。
最后,作者認(rèn)為,世界模型不是關(guān)于視頻或虛擬現(xiàn)實(shí)的生成,而是關(guān)于模擬現(xiàn)實(shí)世界中所有可能性,因此,目前的范式和努力仍然是原始的。作者希望,通過(guò)批判性、分析性和建設(shè)性的剖析一些關(guān)于如何構(gòu)建世界模型的流行思想,以及 PAN 架構(gòu),能夠激發(fā)理論和實(shí)施更強(qiáng)大世界模型的進(jìn)一步發(fā)展。
由 PAN 世界模型驅(qū)動(dòng)的模擬推理智能體。與依賴(lài)反應(yīng)策略的傳統(tǒng)強(qiáng)化學(xué)習(xí)智能體,或在決策時(shí)刻昂貴地模擬未來(lái)的模型預(yù)測(cè)控制(MPC)智能體不同,其利用了 PAN 生成的預(yù)計(jì)算模擬緩存。在決策過(guò)程中,智能體根據(jù)當(dāng)前的信念和預(yù)期結(jié)果選擇行動(dòng),從而實(shí)現(xiàn)更高效、靈活和有目的的規(guī)劃方式。這種方式更接近人類(lèi)推理的靈活性。
更詳細(xì)內(nèi)容,請(qǐng)查閱論文原文。
“掌”握科技鮮聞 (微信搜索techsina或掃描左側(cè)二維碼關(guān)注)
相關(guān)新聞猜你喜歡
- Hugging Face 桌面機(jī)器人 Reachy Mini 開(kāi)訂:長(zhǎng)相呆萌,支持超 170 萬(wàn)個(gè) AI 模型
- 車(chē)圈一個(gè)月?lián)Q了35名高管!六大車(chē)企集體換防,東風(fēng)一次調(diào)整600人
- 華為余承東:鴻蒙智行“五界”車(chē)標(biāo)均會(huì)采用六邊形輪廓
- 斯基拉:羅馬準(zhǔn)備2300萬(wàn)
- 斯圖加特總監(jiān):我們預(yù)計(jì)沃爾特馬德夏窗留隊(duì)
- 騰訊15年來(lái)首次!生肖鵝公仔開(kāi)放AI共創(chuàng)
- TA:羅馬開(kāi)始商談租借引進(jìn)布萊頓前鋒埃文
- 圖片報(bào):萊比錫挖角拜仁球探恩格勒特,他此前在拜仁工作7年半
- 技術(shù)、法律熔鑄一體 煉就服務(wù)硬口碑——訪2025年北京市勞動(dòng)模范,北京市中聞律師事務(wù)所執(zhí)委、合伙人劉彬