停止RL研究!前OpenAI研究員:互聯網才是唯一重要的技術
時間:2025-07-16 18:09:40 出處:焦點閱讀(143)
強化學習(RL)被認為是停止實現通用人工智能(AGI)的必要一環(huán)。
然而,研究I研在前 OpenAI 研究員Kevin Lu 看來,互聯當前的網才唯重 RL 難以實現「從 GPT-1 到 GPT-4」般的重大突破,應該“停止進行 RL 研究,停止轉而從事產品開發(fā)”。研究I研
他的互聯理由簡潔明了:推動人工智能(AI)實現大規(guī)模轉變的技術是互聯網,而不是網才唯重transformers。
在一篇題為
互聯網是停止唯一重要的技術
》(The Only Important Technology Is The Internet)的文章中,他寫道:
“在低數據(小數據)環(huán)境下,研究I研Transformers 將毫無價值(worthless)。互聯 我們缺乏 RL 所需的網才唯重通用數據源......真正令人興奮的應該是為 RL 尋找(或創(chuàng)造)新的數據源! 互聯網本身是停止模型極其多樣化的重要監(jiān)督來源,也是研究I研人類的縮影。 互聯網才是互聯真正為 AI 模型擴展(scaling)提供可能的技術。
在文章中,他用大量的篇幅論述了一個問題:如果互聯網是「下一個 token 預測」的對偶,那 RL 的對偶又是什么?
“我們離發(fā)現 RL 的正確對偶,還很遙遠。”
圖|Kevin Lu,曾在 OpenAI 從事 RL、小型模型和合成數據研究,主導了 4o-mini 的發(fā)布,并參與了 o1 和 o3 等模型的開發(fā)。在加州大學伯克利分校求學期間,指導老師為 Pieter Abbeel 和 Igor Mordatch。
學術頭條在不改變原文大意的前提下,對訪談內容做了適當的精編和刪減。如下:
人們往往將 AI 的進展歸功于那些里程碑式的文章,如?transformers、RNNs?或?diffusion,但忽視了 AI 的根本瓶頸:數據。那么,擁有好的數據,究竟意味著什么?
如果我們真正想繼續(xù)推進 AI 的發(fā)展,我們就不應該研究 AI 優(yōu)化技術,而應該研究互聯網。互聯網才是真正為 AI 模型擴展(scaling)提供可能的技術。
Transformers是一個干擾項
“受到架構創(chuàng)新引起的快速進展的啟發(fā)(5年內,從 AlexNet 發(fā)展到 Transformer),許多研究人員開始尋求更好的架構先驗。人們爭相下注,希望設計出比 Transformer 更優(yōu)的架構。事實上,自 Transformer 以來,人們確實已經開發(fā)出了更好的架構——但問題是,為什么自 GPT-4 以來,我們卻很難‘感覺到’有任何類似的巨大提升了?”
1. 范式轉變
計算密集(Compute-bound)。曾幾何時,方法隨著計算資源的增加而擴展,更高效的方法有著更好的表現。其中的關鍵在于,將數據盡可能高效地打“塞進”模型中,這些方法不僅取得了更好的結果,而且似乎依然隨著規(guī)模擴大而不斷提升。
數據密集(Data-bound):實際上,研究并非無用。自 transformer 之后,研究社區(qū)已開發(fā)出更優(yōu)的方法,比如 SSMs(Albert Gu 等人,2021)和 Mamba(Albert Gu 等人,2023),以及更多。但我們并不認為它們是“必然更好”的成果:在給定的訓練計算下,我們仍然應該訓練一個表現更好的 transformer。
但在數據受限下,選擇可能就更多了:所有方法的性能最終都會趨同!因此,我們應選擇最適合推理的方法,其可能是某個亞二次(subquadratic)注意力機制變體,推理時這類方法或許很快就會重新成為焦點。
2. 研究人員應該做什么?
現在假設,我們不僅僅關心推理(即注重產品),而是關心漸近性能(即實現 AGI)。
顯然,優(yōu)化架構這件事,是錯誤的。
確定如何截斷你的Q-函數軌跡也絕對是錯誤的。
手工創(chuàng)建新數據集無法實現模型擴展。
新的時序高斯探索方法也可能無法擴展模型。
社區(qū)大多數人已經達成這樣一個共識:我們應該研究如何利用數據的新方法,主要有兩方面:(1)下一個 token 預測和(2)RL。顯然,我們并沒有基于此取得很大進展。
AI所做的只是使用數據
這些里程碑式工作為 AI 使用數據提供了新途徑:
AlexNet使用下一個 token 預測來利用 ImageNet 數據集。
GPT-2使用下一個 token 預測來利用互聯網上的文本數據。
GPT-4o、Gemini 1.5等原生多模態(tài)模型使用下一個 token 預測來利用互聯網上的圖像和音頻數據。
ChatGPT使用 RL 來利用聊天場景中的隨機人類偏好獎勵數據。
Deepseek R1使用 RL 來利用窄狹域中的確定可驗證獎勵數據。
就下一個 token 預測而言,互聯網是理想的解決方案:它為這種基于序列的方法提供了豐富的序列相關數據。
圖|互聯網上充斥著以結構化 HTML 形式呈現的序列,適合進行下一個 token 預測。根據排列順序,你可以復現多種不同的有用功能。
這絕非偶然:這種序列數據完美適合于下一個 token 預測;互聯網和下一個 token 預測是相輔相成的。
1. 星球級規(guī)模數據
2020 年,OpenAI 研究員 Alec Radford 在一場具有前瞻性的演講中指出:盡管當時提出了許多新方法,但與收集更多數據相比,它們似乎都無關緊要。特別是,我們不再寄希望于通過更好的方法實現“神奇”的泛化,而是遵循一個簡單原則:如果模型沒有被告知某件事情,那么它當然就不知道那件事情。
與其通過創(chuàng)建大量監(jiān)督數據集來手動指定要預測的內容…… 不如想辦法從“外界”的所有事物中學習并進行預測。 你可以將每次構建數據集看作是將世界上其他所有事物的重要性設為 0,而將數據集中所有事物的重要性設為 1。 可憐的模型們!它們知道的很少,卻仍有這么多東西對它們隱藏著。
在 GPT-2 發(fā)布之后,世界開始關注OpenAI,并且后來的事實證明了它的影響力。
2. 如果只有Transformer,但沒有互聯網
低數據(Low-data):一個明顯的反事實是,在低數據(小數據)環(huán)境下,Transformers 將毫無價值(worthless):相比于卷積網絡或循環(huán)神經網絡,有一個更差的“架構先驗”。因此,Transformers 的表現應該比對應的卷積神經網絡更差。
書籍:一個不那么極端的情形是,如果沒有互聯網,我們可能會基于書籍或教科書進行預訓練。在所有人類數據中,我們通常認為教科書代表了人類智慧的巔峰,其作者都接受了深厚的教育,并在每個詞中投入了大量思考。本質上,它代表了“高質量數據勝過高數量數據”的觀點。
教科書:微軟的 phi 模型(“Textbooks Are All You Need”,Suriya Gunasekar 等人, 2023)展示了出色的小模型性能,但仍需依賴在互聯網上預訓練的 GPT-4 進行過濾并生成合成數據。與學術界的情況類似,phi 模型在世界知識方面不如同等規(guī)模的其他模型,這一結論可以通過 SimpleQA 驗證。
確實,phi 模型已經表現得相當出色,但我們尚未看到這些模型能夠達到基于互聯網數據訓練的類似規(guī)模模型的性能,而且很明顯,教科書缺乏大量的現實世界知識和多語言知識。不過,它們在計算密集情況下表現很強。
3. 數據分類
我認為這與我們上面提到的 RL 數據分類也有著有趣的聯系。教科書就像可驗證的獎勵:它們的陳述(幾乎)總是正確的。相比之下,書籍——尤其是創(chuàng)意寫作類的書籍——可能包含更多關于人類偏好的數據,從而使其生成的學生模型具有更大的多樣性。
就像我們不會相信?o3?或?Sonnet?3.7?來為我們寫作一樣,我們可能認為只在高質量數據上訓練的模型缺乏一定的創(chuàng)造性。與上述內容直接相關,phi 模型并沒有很好的產品市場契合(PMF):當需要知識時,你更傾向于使用大模型;而當你想要一個用于本地角色扮演寫作的模型時,人們通常也不會選擇 phi。
互聯網之美
實際上,書籍和教科書只是互聯網數據的壓縮形式,即使背后有強大的智能在進行壓縮。更進一步,互聯網本身是模型極其多樣化的重要監(jiān)督來源,也是人類的縮影。
乍一看,許多研究人員可能會覺得奇怪,為了取得研究進展,我們需要轉向關注產品。但我認為這非常自然:假設我們關心的是 AGI 真可以為人類做一些有益的事情,而不僅僅是在隔絕環(huán)境中表現出智能(如 AlphaZero 那樣),那么思考 AGI 所采用的形式(產品)是合理的——我認為研究(預訓練)與產品(互聯網)之間的協同設計非常美妙。
來自:Thinking Machines Lab
1. 去中心化和多樣性
互聯網以一種去中心化的方式存在,任何人都可以在其中添加知識:不存在單一的事實中心源。互聯網上存在著大量的豐富觀點、文化符號和低資源語言;如果使用 LLM 對這些內容進行預訓練,我們就能獲得一種能夠理解海量知識的智能體。
這意味著互聯網產品的管理者在 AGI 的設計中扮演著重要角色!如果我們削弱互聯網的多樣性,模型在 RL 任務中的熵將顯著降低。如果我們刪除某些數據,就會使整個亞文化在 AGI 中無法體現。
對齊。有一個非常有趣的結果:為了得到對齊的模型,你必須同時在對齊數據和非對齊數據上進行預訓練(“When Bad Data Leads to Good Models”;Kenneth Li 等,2025),使得預訓練可以學習到兩者之間線性可分的方向。如果完全剔除未對齊數據,模型將無法深刻理解未對齊數據的本質,及其為何被視為不良數據(Xiangyu Qi 等,2024;Mohit Raghavendra 等,2024)。
圖|Toxigen 數值越高毒性越強。基于 10% 有毒數據(10% 有毒數據+引導)預訓練的模型比基于 0 有毒數據(干凈數據+引導)預訓練的模型毒性更低。
特別地,上述“有毒”數據來自一個以無限制討論和充斥有毒內容而聞名的匿名在線論壇。雖然這是產品與研究之間深刻聯系的一個具體例子(為了得到對齊的研究模型,我們需要這種不受限制的討論),還有許多其他案例同樣可以表明,互聯網的設計決策會影響訓練后的結果。
這是一個非對齊示例(“Improving Image Generation with Better Captions”,James Betker 等,2023),該研究是 DALL-E 3 的技術基礎,即通過重新生成字幕來更好地區(qū)分“優(yōu)質”與“劣質”圖像的方法,如今已被幾乎所有生成式模型采用。這與人類偏好獎勵中的點贊/點踩機制類似。
2. 互聯網是一個技能課程庫
互聯網的另一個重要特性在于,它包含了各種難度的廣泛知識:從針對小學階段學生的教育知識(如 Khan Academy),到大學級別的課程(MIT OpenCourseWare),再到前沿科學(arXiv)。如果你只用前沿科學數據來訓練模型,很多隱含的、未成文的知識是無法學到的。
這很重要,想象你有一個數據集,你在這個數據集上訓練模型,然后模型學會了這個數據集中的知識。接下來怎么辦?你可以手動去收集下一個數據集——OpenAI 最初以每小時 2 美元的價格雇傭數據標注人員;后來以約每小時 100 美元的價格雇傭博士級別的工作人員;而現在他們的前沿模型正在執(zhí)行價值 10000 美元級別的軟件工程 (SWE) 任務。
但這需要大量工作,對吧?我們最初手動收集數據集,如 CIFAR、ImageNet,然后是更大的 ImageNet……或者從小學數學開始、接著是 AIME、然后是 FrontierMath 等……但由于互聯網的數據規(guī)模達到了星球級規(guī)模,它自然地包含了一個難度逐漸提升的任務。
RL 中的課程設置。隨著我們轉向 RL,課程設置的作用更加重要:由于獎勵是稀疏的,模型必須理解完成任務并獲得非零獎勵所需的各項子技能。一旦模型在某次嘗試中發(fā)現了非零獎勵,它就可以分析哪些做法成功了,然后再次嘗試重復它,而 RL 確實能夠從稀疏獎勵中獲得驚人的學習效果。
但沒有免費的午餐:模型仍然需要平滑的課程設置才能學習。預訓練更具容錯性,因為其目標是密集的;為了彌補這一點,RL 必須采用密集的課程設置。
圖|RL 智能體首先學習實現迷宮起點附近的目標,隨后再學習實現更遠的目標。(Yunzhi Zhang 等,2020)。
自博弈(如 AlphaZero 或 AlphaStar 中所采用的)也會形成一套課程(展示了國際象棋或星際爭霸的窄領域)。正如 RL 智能體或電子游戲玩家想要贏得比賽(并因此發(fā)現新策略)一樣,在線用戶也想貢獻新想法(有時會獲得點贊或廣告收入),從而不斷擴展知識前沿并創(chuàng)造出一種自然的學習課程設置。
3. 苦澀的教訓
因此,我們必須牢記,人們實際上希望使用互聯網,而所有這些有用的特性都是在與互聯網作為產品互動的過程中產生的。如果我們不得不手動整理數據集,那么整理的內容與人們認為有用的功能之間就會存在矛盾。選擇有用技能的權利不在研究者手中:互聯網用戶會告訴你。
圖|一些人愿意使用互聯網的一個重要原因在于,互聯網技術已足夠廉價,能夠實現大規(guī)模普及。如果互聯網被昂貴的訂閱費用所限制,用戶就不會大規(guī)模地貢獻自己的數據。
我認為人們在談論 scaling 時常常忽視這一點:互聯網是一個簡單的理念,它可以擴展學習和搜索——數據和計算——如果你能夠找到這些簡單的理念并加以擴展,就會得到很好的結果。
4. AGI 是關于人類的記錄
因此,我認為在數學理論之外,關于如何構建 AGI 仍有大量討論空間:互聯網(以及由此延伸的 AGI)可以從從哲學到社會科學等多個角度進行探討。眾所周知,LLM 會延續(xù)其訓練數據中的偏見。如果我們用 20 世紀的數據訓練模型,我們將獲得 20 世紀語言結構的快照,這種結構可能永遠存在。我們可以實時觀察人類知識和文化的演變。
在維基百科條目和 GitHub 倉庫中,我們可以看到人類智能的協作特性。我們可以模擬人類的協作以及追求更完美結果的愿望。在在線論壇中,我們可以看到辯論和多樣性,人們貢獻新穎的想法(并常面臨某種選擇壓力以提供新思路)。通過社交媒體,AI 學到人類認為足夠重要并愿意與親人分享的內容。它目睹了人類的錯誤、為糾正錯誤而采取的過程,以及持續(xù)不斷地向真理邁進的努力。
正如 Claude 寫的:
“AI 并非從人類最美好的一面學習,而是從人類的完整面貌中學習——包括爭論、困惑和集體建構意義的混亂過程。”
明確來說,互聯網對模型訓練非常有用,因為:
內容豐富,因此包含許多對模型有用的知識。
為模型學習新技能提供了一個自然的課程。
人們希望使用它,不斷貢獻更多數據(產品市場契合)。
具有經濟性:這項技術對大量用戶來說足夠便宜。
互聯網是下一個 token 預測的對偶
RL 顯然是未來的發(fā)展方向(也是實現超人類智能的“必要條件”)。然而,如上所述,我們缺乏 所需的通用數據源。獲取高質量獎勵信號是一項艱巨的任務:我們要么必須爭奪原始聊天數據,要么只能在稀缺的可驗證任務中勉強搜尋。而且,他人的聊天偏好并不一定符合我的喜好,而基于可驗證數據訓練的模型也不一定能在我不關心的非可驗證任務上表現更好。
互聯網是監(jiān)督式下一個 token 預測的完美補充:可以大膽斷言,若以互聯網為基礎,研究者必然會聚焦于下一個 token 預測。我們可以將互聯網視為催生 AI 的“原始湯”(primordial soup)。因此,我或許可以說,互聯網是下一個 token 預測的對偶。
如上所述,盡管我們進行了大量研究,目前仍僅有兩種主要的學習范式。因此,提出新的“產品”創(chuàng)意可能比提出新的主要范式更為容易。這讓我們不得不思考:RL 的對偶是什么?
1. 用 RL 優(yōu)化困惑度
首先,我注意到有一些研究將 RL 應用于下一個 token 預測,并使用困惑度(perplexity)作為獎勵信號(Yunhao Tang 等,2025)。這一方向旨在將 RL 的優(yōu)勢與互聯網的多樣性聯系起來。
然而,我認為這種思路有些誤導,因為 RL 范式的精妙之處在于它可以利用新的數據源(獎勵),而非將舊數據建模作為新目標。例如,GANs(Ian Goodfellow 等,2014)曾經被大多人用于從固定數據中獲取更多信息,但最終被擴散(diffusion)方法取代,然后是下一個 token 預測。
真正令人興奮的應該是為 RL 尋找(或創(chuàng)造)新的數據源!
2. RL 的對偶是什么?
目前有幾種不同的想法,但每種都有缺陷。它們都不是“純粹”的研究理念,而是圍繞 RL 構建產品。我稍微推測一下這些方向可能的樣子。回顧一下,我們希望它具備以下屬性:多樣性、自然的課程設置、產品市場契合,以及經濟可行。
(1)傳統獎勵
人類偏好(如 RLHF 方法)。如上所述,這些偏好數據很難收集,不同人之間可能存在差異,且噪聲很大。正如在 YouTube 或 TikTok 中可以看到的,它們往往優(yōu)化的是“參與度”而非智能;目前尚不清楚是否能建立明確的關聯,即提升參與度能否直接提升智能水平。
可驗證獎勵(如 RLVR 方法)。這些獎勵僅限于特定領域,且不一定能在其他領域外推廣。
(2)應用
機器人技術。許多人夢想在未來十年內建立大規(guī)模的機器人數據收集管道和加速器,以將智能帶入現實世界,這非常令人興奮。正如機器人初創(chuàng)企業(yè)的高失敗率所示,這顯然充滿挑戰(zhàn)。對于 RL 而言,由于諸多原因,標注獎勵困難、需應對機器人形態(tài)的多樣性、存在模擬與現實的差距、非平穩(wěn)環(huán)境等。正如我們在自動駕駛汽車上看到的,它們也不一定具有經濟效益。
推薦系統。這可以視為人類偏好的延伸,但更加精準。我們可以利用 RL 為用戶推薦產品,并觀察他們是否使用或購買。不過,這樣做也會帶來一些弊端:如果領域過于狹窄,可能會限制推薦范圍;而如果領域過于寬泛(比如“生活建議”這類),則可能面臨更多干擾性的反饋結果。
AI 研究。我們可以利用 RL 進行“AI 研究”(AI Scientist; by Chris Lu et al. 2024),并訓練模型來訓練其他模型以最大化基準性能。從某種意義上說,這并非狹窄領域,但在實踐中確實如此。此外,正如 Thinking Machines 所寫:“最重要的突破往往來自重新思考我們的目標,而不僅僅是優(yōu)化現有指標。”
交易。現在我們有一個有趣的指標,它基本上無法被 hack(模型可能會學習市場操縱),但你可能會在該過程中損失大量資金(你的 RL 智能體可能會學會不參與交易le )。
計算機動作數據。就 RL 向模型教授流程而言,我們可以訓練模型來執(zhí)行電腦上的操作(類似于機器人技術)。特別是當結合人類數據(例如許多交易公司記錄的員工操作數據)時,可以結合使用下一個 token 預測和 RL 來實現這個目標。但這同樣也不容易,人們一般不會同意他們的數據被記錄(不同于互聯網通過參與內容來獲取數據,大多數人不會同意使用按鍵記錄器)。編碼與此相關。對過去的測試用例進行 RL 是可驗證的,但生成測試用例的過程則不可驗證。
最后想說的:假設我們犧牲一些多樣性。你可以將 RL 應用于家庭環(huán)境中的產品指標,無論是用于電子游戲的 RL,還是 Claude 試圖操作自動售貨機,或其他某種利潤或用戶參與度的概念。可能奏效的原因有很多——但挑戰(zhàn)在于如何將此轉化為一個多樣化的獎勵信號,并將其擴展為一個突破性的范式變革。
無論如何,我認為在一個像互聯網一樣優(yōu)雅且高效的系統中,我們離發(fā)現 RL 的正確對偶,還很遙遠。
但我希望你們能懷揣著這樣的夢想:總有一天,我們會弄清如何創(chuàng)造出這一切,這將是一件大事:
https://kevinlu.ai/the-only-important-technology-is-the-internet#planetary-scale-data
整理:小羊
如需轉載或投稿,請直接在公眾號內留言
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.