當(dāng)前位置：

停止RL研究！前OpenAI研究員：互聯(lián)網(wǎng)才是唯一重要的技術(shù)

時(shí)間:2025-07-16 17:47:06 出處:綜合閱讀（143）

強(qiáng)化學(xué)習(xí)（RL）被認(rèn)為是停止實(shí)現(xiàn)通用人工智能（AGI）的必要一環(huán)。

然而，研究I研在前 OpenAI 研究員Kevin Lu 看來，互聯(lián)當(dāng)前的網(wǎng)才唯重 RL 難以實(shí)現(xiàn)「從 GPT-1 到 GPT-4」般的重大突破，應(yīng)該“停止進(jìn)行 RL 研究，停止轉(zhuǎn)而從事產(chǎn)品開發(fā)”。研究I研

他的互聯(lián)理由簡潔明了：推動人工智能（AI）實(shí)現(xiàn)大規(guī)模轉(zhuǎn)變的技術(shù)是互聯(lián)網(wǎng)，而不是網(wǎng)才唯重transformers。

停止RL研究！前OpenAI研究員：互聯(lián)網(wǎng)才是唯一重要的技術(shù)

在一篇題為

停止RL研究！前OpenAI研究員：互聯(lián)網(wǎng)才是唯一重要的技術(shù)

互聯(lián)網(wǎng)是停止唯一重要的技術(shù)

》（The Only Important Technology Is The Internet

）的文章中，他寫道：

“在低數(shù)據(jù)（小數(shù)據(jù)）環(huán)境下，研究I研Transformers 將毫無價(jià)值（worthless）。互聯(lián) 我們?nèi)狈?RL 所需的網(wǎng)才唯重通用數(shù)據(jù)源......真正令人興奮的應(yīng)該是為 RL 尋找（或創(chuàng)造）新的數(shù)據(jù)源！互聯(lián)網(wǎng)本身是停止模型極其多樣化的重要監(jiān)督來源，也是研究I研人類的縮影。互聯(lián)網(wǎng)才是互聯(lián)真正為 AI 模型擴(kuò)展（scaling）提供可能的技術(shù)。

在文章中，他用大量的篇幅論述了一個(gè)問題：如果互聯(lián)網(wǎng)是「下一個(gè) token 預(yù)測」的對偶，那 RL 的對偶又是什么？

“我們離發(fā)現(xiàn) RL 的正確對偶，還很遙遠(yuǎn)。”

圖｜Kevin Lu，曾在 OpenAI 從事 RL、小型模型和合成數(shù)據(jù)研究，主導(dǎo)了 4o-mini 的發(fā)布，并參與了 o1 和 o3 等模型的開發(fā)。在加州大學(xué)伯克利分校求學(xué)期間，指導(dǎo)老師為 Pieter Abbeel 和 Igor Mordatch。

學(xué)術(shù)頭條在不改變原文大意的前提下，對訪談內(nèi)容做了適當(dāng)?shù)木幒蛣h減。如下：

人們往往將 AI 的進(jìn)展歸功于那些里程碑式的文章，如?transformers、RNNs?或?diffusion，但忽視了 AI 的根本瓶頸：數(shù)據(jù)。那么，擁有好的數(shù)據(jù)，究竟意味著什么？

如果我們真正想繼續(xù)推進(jìn) AI 的發(fā)展，我們就不應(yīng)該研究 AI 優(yōu)化技術(shù)，而應(yīng)該研究互聯(lián)網(wǎng)。互聯(lián)網(wǎng)才是真正為 AI 模型擴(kuò)展（scaling）提供可能的技術(shù)。

Transformers是一個(gè)干擾項(xiàng)

“受到架構(gòu)創(chuàng)新引起的快速進(jìn)展的啟發(fā)（5年內(nèi)，從 AlexNet 發(fā)展到 Transformer），許多研究人員開始尋求更好的架構(gòu)先驗(yàn)。人們爭相下注，希望設(shè)計(jì)出比 Transformer 更優(yōu)的架構(gòu)。事實(shí)上，自 Transformer 以來，人們確實(shí)已經(jīng)開發(fā)出了更好的架構(gòu)——但問題是，為什么自 GPT-4 以來，我們卻很難‘感覺到’有任何類似的巨大提升了？”

1. 范式轉(zhuǎn)變

計(jì)算密集（Compute-bound）。曾幾何時(shí)，方法隨著計(jì)算資源的增加而擴(kuò)展，更高效的方法有著更好的表現(xiàn)。其中的關(guān)鍵在于，將數(shù)據(jù)盡可能高效地打“塞進(jìn)”模型中，這些方法不僅取得了更好的結(jié)果，而且似乎依然隨著規(guī)模擴(kuò)大而不斷提升。

數(shù)據(jù)密集（Data-bound）：實(shí)際上，研究并非無用。自 transformer 之后，研究社區(qū)已開發(fā)出更優(yōu)的方法，比如 SSMs（Albert Gu 等人，2021）和 Mamba（Albert Gu 等人，2023），以及更多。但我們并不認(rèn)為它們是“必然更好”的成果：在給定的訓(xùn)練計(jì)算下，我們?nèi)匀粦?yīng)該訓(xùn)練一個(gè)表現(xiàn)更好的 transformer。

但在數(shù)據(jù)受限下，選擇可能就更多了：所有方法的性能最終都會趨同！因此，我們應(yīng)選擇最適合推理的方法，其可能是某個(gè)亞二次（subquadratic）注意力機(jī)制變體，推理時(shí)這類方法或許很快就會重新成為焦點(diǎn)。

2. 研究人員應(yīng)該做什么？

現(xiàn)在假設(shè)，我們不僅僅關(guān)心推理（即注重產(chǎn)品），而是關(guān)心漸近性能（即實(shí)現(xiàn) AGI）。

顯然，優(yōu)化架構(gòu)這件事，是錯(cuò)誤的。
確定如何截?cái)嗄愕腝-函數(shù)軌跡也絕對是錯(cuò)誤的。
手工創(chuàng)建新數(shù)據(jù)集無法實(shí)現(xiàn)模型擴(kuò)展。
新的時(shí)序高斯探索方法也可能無法擴(kuò)展模型。

社區(qū)大多數(shù)人已經(jīng)達(dá)成這樣一個(gè)共識：我們應(yīng)該研究如何利用數(shù)據(jù)的新方法，主要有兩方面：（1）下一個(gè) token 預(yù)測和（2）RL。顯然，我們并沒有基于此取得很大進(jìn)展。

AI所做的只是使用數(shù)據(jù)

這些里程碑式工作為 AI 使用數(shù)據(jù)提供了新途徑：

AlexNet使用下一個(gè) token 預(yù)測來利用 ImageNet 數(shù)據(jù)集。
GPT-2使用下一個(gè) token 預(yù)測來利用互聯(lián)網(wǎng)上的文本數(shù)據(jù)。
GPT-4o、Gemini 1.5等原生多模態(tài)模型使用下一個(gè) token 預(yù)測來利用互聯(lián)網(wǎng)上的圖像和音頻數(shù)據(jù)。
ChatGPT使用 RL 來利用聊天場景中的隨機(jī)人類偏好獎勵數(shù)據(jù)。
Deepseek R1使用 RL 來利用窄狹域中的確定可驗(yàn)證獎勵數(shù)據(jù)。

就下一個(gè) token 預(yù)測而言，互聯(lián)網(wǎng)是理想的解決方案：它為這種基于序列的方法提供了豐富的序列相關(guān)數(shù)據(jù)。

圖｜互聯(lián)網(wǎng)上充斥著以結(jié)構(gòu)化 HTML 形式呈現(xiàn)的序列，適合進(jìn)行下一個(gè) token 預(yù)測。根據(jù)排列順序，你可以復(fù)現(xiàn)多種不同的有用功能。

這絕非偶然：這種序列數(shù)據(jù)完美適合于下一個(gè) token 預(yù)測；互聯(lián)網(wǎng)和下一個(gè) token 預(yù)測是相輔相成的。

1. 星球級規(guī)模數(shù)據(jù)

2020 年，OpenAI 研究員 Alec Radford 在一場具有前瞻性的演講中指出：盡管當(dāng)時(shí)提出了許多新方法，但與收集更多數(shù)據(jù)相比，它們似乎都無關(guān)緊要。特別是，我們不再寄希望于通過更好的方法實(shí)現(xiàn)“神奇”的泛化，而是遵循一個(gè)簡單原則：如果模型沒有被告知某件事情，那么它當(dāng)然就不知道那件事情。

與其通過創(chuàng)建大量監(jiān)督數(shù)據(jù)集來手動指定要預(yù)測的內(nèi)容…… 不如想辦法從“外界”的所有事物中學(xué)習(xí)并進(jìn)行預(yù)測。你可以將每次構(gòu)建數(shù)據(jù)集看作是將世界上其他所有事物的重要性設(shè)為 0，而將數(shù)據(jù)集中所有事物的重要性設(shè)為 1。可憐的模型們！它們知道的很少，卻仍有這么多東西對它們隱藏著。

在 GPT-2 發(fā)布之后，世界開始關(guān)注OpenAI，并且后來的事實(shí)證明了它的影響力。

2. 如果只有Transformer，但沒有互聯(lián)網(wǎng)

低數(shù)據(jù)（Low-data）：一個(gè)明顯的反事實(shí)是，在低數(shù)據(jù)（小數(shù)據(jù)）環(huán)境下，Transformers 將毫無價(jià)值（worthless）：相比于卷積網(wǎng)絡(luò)或循環(huán)神經(jīng)網(wǎng)絡(luò)，有一個(gè)更差的“架構(gòu)先驗(yàn)”。因此，Transformers 的表現(xiàn)應(yīng)該比對應(yīng)的卷積神經(jīng)網(wǎng)絡(luò)更差。

書籍：一個(gè)不那么極端的情形是，如果沒有互聯(lián)網(wǎng)，我們可能會基于書籍或教科書進(jìn)行預(yù)訓(xùn)練。在所有人類數(shù)據(jù)中，我們通常認(rèn)為教科書代表了人類智慧的巔峰，其作者都接受了深厚的教育，并在每個(gè)詞中投入了大量思考。本質(zhì)上，它代表了“高質(zhì)量數(shù)據(jù)勝過高數(shù)量數(shù)據(jù)”的觀點(diǎn)。

教科書：微軟的 phi 模型（“Textbooks Are All You Need”，Suriya Gunasekar 等人, 2023）展示了出色的小模型性能，但仍需依賴在互聯(lián)網(wǎng)上預(yù)訓(xùn)練的 GPT-4 進(jìn)行過濾并生成合成數(shù)據(jù)。與學(xué)術(shù)界的情況類似，phi 模型在世界知識方面不如同等規(guī)模的其他模型，這一結(jié)論可以通過 SimpleQA 驗(yàn)證。

確實(shí)，phi 模型已經(jīng)表現(xiàn)得相當(dāng)出色，但我們尚未看到這些模型能夠達(dá)到基于互聯(lián)網(wǎng)數(shù)據(jù)訓(xùn)練的類似規(guī)模模型的性能，而且很明顯，教科書缺乏大量的現(xiàn)實(shí)世界知識和多語言知識。不過，它們在計(jì)算密集情況下表現(xiàn)很強(qiáng)。

3. 數(shù)據(jù)分類

我認(rèn)為這與我們上面提到的 RL 數(shù)據(jù)分類也有著有趣的聯(lián)系。教科書就像可驗(yàn)證的獎勵：它們的陳述（幾乎）總是正確的。相比之下，書籍——尤其是創(chuàng)意寫作類的書籍——可能包含更多關(guān)于人類偏好的數(shù)據(jù)，從而使其生成的學(xué)生模型具有更大的多樣性。

就像我們不會相信?o3?或?Sonnet?3.7?來為我們寫作一樣，我們可能認(rèn)為只在高質(zhì)量數(shù)據(jù)上訓(xùn)練的模型缺乏一定的創(chuàng)造性。與上述內(nèi)容直接相關(guān)，phi 模型并沒有很好的產(chǎn)品市場契合（PMF）：當(dāng)需要知識時(shí)，你更傾向于使用大模型；而當(dāng)你想要一個(gè)用于本地角色扮演寫作的模型時(shí)，人們通常也不會選擇 phi。

互聯(lián)網(wǎng)之美

實(shí)際上，書籍和教科書只是互聯(lián)網(wǎng)數(shù)據(jù)的壓縮形式，即使背后有強(qiáng)大的智能在進(jìn)行壓縮。更進(jìn)一步，互聯(lián)網(wǎng)本身是模型極其多樣化的重要監(jiān)督來源，也是人類的縮影。

乍一看，許多研究人員可能會覺得奇怪，為了取得研究進(jìn)展，我們需要轉(zhuǎn)向關(guān)注產(chǎn)品。但我認(rèn)為這非常自然：假設(shè)我們關(guān)心的是 AGI 真可以為人類做一些有益的事情，而不僅僅是在隔絕環(huán)境中表現(xiàn)出智能（如 AlphaZero 那樣），那么思考 AGI 所采用的形式（產(chǎn)品）是合理的——我認(rèn)為研究（預(yù)訓(xùn)練）與產(chǎn)品（互聯(lián)網(wǎng)）之間的協(xié)同設(shè)計(jì)非常美妙。

來自：Thinking Machines Lab

1. 去中心化和多樣性

互聯(lián)網(wǎng)以一種去中心化的方式存在，任何人都可以在其中添加知識：不存在單一的事實(shí)中心源。互聯(lián)網(wǎng)上存在著大量的豐富觀點(diǎn)、文化符號和低資源語言；如果使用 LLM 對這些內(nèi)容進(jìn)行預(yù)訓(xùn)練，我們就能獲得一種能夠理解海量知識的智能體。

這意味著互聯(lián)網(wǎng)產(chǎn)品的管理者在 AGI 的設(shè)計(jì)中扮演著重要角色！如果我們削弱互聯(lián)網(wǎng)的多樣性，模型在 RL 任務(wù)中的熵將顯著降低。如果我們刪除某些數(shù)據(jù)，就會使整個(gè)亞文化在 AGI 中無法體現(xiàn)。

對齊。有一個(gè)非常有趣的結(jié)果：為了得到對齊的模型，你必須同時(shí)在對齊數(shù)據(jù)和非對齊數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練（“When Bad Data Leads to Good Models”；Kenneth Li 等，2025），使得預(yù)訓(xùn)練可以學(xué)習(xí)到兩者之間線性可分的方向。如果完全剔除未對齊數(shù)據(jù)，模型將無法深刻理解未對齊數(shù)據(jù)的本質(zhì)，及其為何被視為不良數(shù)據(jù)（Xiangyu Qi 等，2024；Mohit Raghavendra 等，2024）。

圖｜Toxigen 數(shù)值越高毒性越強(qiáng)。基于 10% 有毒數(shù)據(jù)（10% 有毒數(shù)據(jù)+引導(dǎo)）預(yù)訓(xùn)練的模型比基于 0 有毒數(shù)據(jù)（干凈數(shù)據(jù)+引導(dǎo)）預(yù)訓(xùn)練的模型毒性更低。

特別地，上述“有毒”數(shù)據(jù)來自一個(gè)以無限制討論和充斥有毒內(nèi)容而聞名的匿名在線論壇。雖然這是產(chǎn)品與研究之間深刻聯(lián)系的一個(gè)具體例子（為了得到對齊的研究模型，我們需要這種不受限制的討論），還有許多其他案例同樣可以表明，互聯(lián)網(wǎng)的設(shè)計(jì)決策會影響訓(xùn)練后的結(jié)果。

這是一個(gè)非對齊示例（“Improving Image Generation with Better Captions”，James Betker 等，2023），該研究是 DALL-E 3 的技術(shù)基礎(chǔ)，即通過重新生成字幕來更好地區(qū)分“優(yōu)質(zhì)”與“劣質(zhì)”圖像的方法，如今已被幾乎所有生成式模型采用。這與人類偏好獎勵中的點(diǎn)贊/點(diǎn)踩機(jī)制類似。

2. 互聯(lián)網(wǎng)是一個(gè)技能課程庫

互聯(lián)網(wǎng)的另一個(gè)重要特性在于，它包含了各種難度的廣泛知識：從針對小學(xué)階段學(xué)生的教育知識（如 Khan Academy），到大學(xué)級別的課程（MIT OpenCourseWare），再到前沿科學(xué)（arXiv）。如果你只用前沿科學(xué)數(shù)據(jù)來訓(xùn)練模型，很多隱含的、未成文的知識是無法學(xué)到的。

這很重要，想象你有一個(gè)數(shù)據(jù)集，你在這個(gè)數(shù)據(jù)集上訓(xùn)練模型，然后模型學(xué)會了這個(gè)數(shù)據(jù)集中的知識。接下來怎么辦？你可以手動去收集下一個(gè)數(shù)據(jù)集——OpenAI 最初以每小時(shí) 2 美元的價(jià)格雇傭數(shù)據(jù)標(biāo)注人員；后來以約每小時(shí) 100 美元的價(jià)格雇傭博士級別的工作人員；而現(xiàn)在他們的前沿模型正在執(zhí)行價(jià)值 10000 美元級別的軟件工程 (SWE) 任務(wù)。

但這需要大量工作，對吧？我們最初手動收集數(shù)據(jù)集，如 CIFAR、ImageNet，然后是更大的 ImageNet……或者從小學(xué)數(shù)學(xué)開始、接著是 AIME、然后是 FrontierMath 等……但由于互聯(lián)網(wǎng)的數(shù)據(jù)規(guī)模達(dá)到了星球級規(guī)模，它自然地包含了一個(gè)難度逐漸提升的任務(wù)。

RL 中的課程設(shè)置。隨著我們轉(zhuǎn)向 RL，課程設(shè)置的作用更加重要：由于獎勵是稀疏的，模型必須理解完成任務(wù)并獲得非零獎勵所需的各項(xiàng)子技能。一旦模型在某次嘗試中發(fā)現(xiàn)了非零獎勵，它就可以分析哪些做法成功了，然后再次嘗試重復(fù)它，而 RL 確實(shí)能夠從稀疏獎勵中獲得驚人的學(xué)習(xí)效果。

但沒有免費(fèi)的午餐：模型仍然需要平滑的課程設(shè)置才能學(xué)習(xí)。預(yù)訓(xùn)練更具容錯(cuò)性，因?yàn)槠淠繕?biāo)是密集的；為了彌補(bǔ)這一點(diǎn)，RL 必須采用密集的課程設(shè)置。

圖｜RL 智能體首先學(xué)習(xí)實(shí)現(xiàn)迷宮起點(diǎn)附近的目標(biāo)，隨后再學(xué)習(xí)實(shí)現(xiàn)更遠(yuǎn)的目標(biāo)。（Yunzhi Zhang 等，2020）。

自博弈（如 AlphaZero 或 AlphaStar 中所采用的）也會形成一套課程（展示了國際象棋或星際爭霸的窄領(lǐng)域）。正如 RL 智能體或電子游戲玩家想要贏得比賽（并因此發(fā)現(xiàn)新策略）一樣，在線用戶也想貢獻(xiàn)新想法（有時(shí)會獲得點(diǎn)贊或廣告收入），從而不斷擴(kuò)展知識前沿并創(chuàng)造出一種自然的學(xué)習(xí)課程設(shè)置。

3. 苦澀的教訓(xùn)

因此，我們必須牢記，人們實(shí)際上希望使用互聯(lián)網(wǎng)，而所有這些有用的特性都是在與互聯(lián)網(wǎng)作為產(chǎn)品互動的過程中產(chǎn)生的。如果我們不得不手動整理數(shù)據(jù)集，那么整理的內(nèi)容與人們認(rèn)為有用的功能之間就會存在矛盾。選擇有用技能的權(quán)利不在研究者手中：互聯(lián)網(wǎng)用戶會告訴你。

圖｜一些人愿意使用互聯(lián)網(wǎng)的一個(gè)重要原因在于，互聯(lián)網(wǎng)技術(shù)已足夠廉價(jià)，能夠?qū)崿F(xiàn)大規(guī)模普及。如果互聯(lián)網(wǎng)被昂貴的訂閱費(fèi)用所限制，用戶就不會大規(guī)模地貢獻(xiàn)自己的數(shù)據(jù)。

我認(rèn)為人們在談?wù)?scaling 時(shí)常常忽視這一點(diǎn)：互聯(lián)網(wǎng)是一個(gè)簡單的理念，它可以擴(kuò)展學(xué)習(xí)和搜索——數(shù)據(jù)和計(jì)算——如果你能夠找到這些簡單的理念并加以擴(kuò)展，就會得到很好的結(jié)果。

4. AGI 是關(guān)于人類的記錄

因此，我認(rèn)為在數(shù)學(xué)理論之外，關(guān)于如何構(gòu)建 AGI 仍有大量討論空間：互聯(lián)網(wǎng)（以及由此延伸的 AGI）可以從從哲學(xué)到社會科學(xué)等多個(gè)角度進(jìn)行探討。眾所周知，LLM 會延續(xù)其訓(xùn)練數(shù)據(jù)中的偏見。如果我們用 20 世紀(jì)的數(shù)據(jù)訓(xùn)練模型，我們將獲得 20 世紀(jì)語言結(jié)構(gòu)的快照，這種結(jié)構(gòu)可能永遠(yuǎn)存在。我們可以實(shí)時(shí)觀察人類知識和文化的演變。

在維基百科條目和 GitHub 倉庫中，我們可以看到人類智能的協(xié)作特性。我們可以模擬人類的協(xié)作以及追求更完美結(jié)果的愿望。在在線論壇中，我們可以看到辯論和多樣性，人們貢獻(xiàn)新穎的想法（并常面臨某種選擇壓力以提供新思路）。通過社交媒體，AI 學(xué)到人類認(rèn)為足夠重要并愿意與親人分享的內(nèi)容。它目睹了人類的錯(cuò)誤、為糾正錯(cuò)誤而采取的過程，以及持續(xù)不斷地向真理邁進(jìn)的努力。

正如 Claude 寫的：

“AI 并非從人類最美好的一面學(xué)習(xí)，而是從人類的完整面貌中學(xué)習(xí)——包括爭論、困惑和集體建構(gòu)意義的混亂過程。”

明確來說，互聯(lián)網(wǎng)對模型訓(xùn)練非常有用，因?yàn)椋?/p>

內(nèi)容豐富，因此包含許多對模型有用的知識。
為模型學(xué)習(xí)新技能提供了一個(gè)自然的課程。
人們希望使用它，不斷貢獻(xiàn)更多數(shù)據(jù)（產(chǎn)品市場契合）。
具有經(jīng)濟(jì)性：這項(xiàng)技術(shù)對大量用戶來說足夠便宜。

互聯(lián)網(wǎng)是下一個(gè) token 預(yù)測的對偶

RL 顯然是未來的發(fā)展方向（也是實(shí)現(xiàn)超人類智能的“必要條件”）。然而，如上所述，我們?nèi)狈?所需的通用數(shù)據(jù)源。獲取高質(zhì)量獎勵信號是一項(xiàng)艱巨的任務(wù)：我們要么必須爭奪原始聊天數(shù)據(jù)，要么只能在稀缺的可驗(yàn)證任務(wù)中勉強(qiáng)搜尋。而且，他人的聊天偏好并不一定符合我的喜好，而基于可驗(yàn)證數(shù)據(jù)訓(xùn)練的模型也不一定能在我不關(guān)心的非可驗(yàn)證任務(wù)上表現(xiàn)更好。

互聯(lián)網(wǎng)是監(jiān)督式下一個(gè) token 預(yù)測的完美補(bǔ)充：可以大膽斷言，若以互聯(lián)網(wǎng)為基礎(chǔ)，研究者必然會聚焦于下一個(gè) token 預(yù)測。我們可以將互聯(lián)網(wǎng)視為催生 AI 的“原始湯”（primordial soup）。因此，我或許可以說，互聯(lián)網(wǎng)是下一個(gè) token 預(yù)測的對偶。

如上所述，盡管我們進(jìn)行了大量研究，目前仍僅有兩種主要的學(xué)習(xí)范式。因此，提出新的“產(chǎn)品”創(chuàng)意可能比提出新的主要范式更為容易。這讓我們不得不思考：RL 的對偶是什么？

1. 用 RL 優(yōu)化困惑度

首先，我注意到有一些研究將 RL 應(yīng)用于下一個(gè) token 預(yù)測，并使用困惑度（perplexity）作為獎勵信號（Yunhao Tang 等，2025）。這一方向旨在將 RL 的優(yōu)勢與互聯(lián)網(wǎng)的多樣性聯(lián)系起來。

然而，我認(rèn)為這種思路有些誤導(dǎo)，因?yàn)?RL 范式的精妙之處在于它可以利用新的數(shù)據(jù)源（獎勵），而非將舊數(shù)據(jù)建模作為新目標(biāo)。例如，GANs（Ian Goodfellow 等，2014）曾經(jīng)被大多人用于從固定數(shù)據(jù)中獲取更多信息，但最終被擴(kuò)散（diffusion）方法取代，然后是下一個(gè) token 預(yù)測。

真正令人興奮的應(yīng)該是為 RL 尋找（或創(chuàng)造）新的數(shù)據(jù)源！

2. RL 的對偶是什么？

目前有幾種不同的想法，但每種都有缺陷。它們都不是“純粹”的研究理念，而是圍繞 RL 構(gòu)建產(chǎn)品。我稍微推測一下這些方向可能的樣子。回顧一下，我們希望它具備以下屬性：多樣性、自然的課程設(shè)置、產(chǎn)品市場契合，以及經(jīng)濟(jì)可行。

（1）傳統(tǒng)獎勵

人類偏好（如 RLHF 方法）。如上所述，這些偏好數(shù)據(jù)很難收集，不同人之間可能存在差異，且噪聲很大。正如在 YouTube 或 TikTok 中可以看到的，它們往往優(yōu)化的是“參與度”而非智能；目前尚不清楚是否能建立明確的關(guān)聯(lián)，即提升參與度能否直接提升智能水平。
可驗(yàn)證獎勵（如 RLVR 方法）。這些獎勵僅限于特定領(lǐng)域，且不一定能在其他領(lǐng)域外推廣。

（2）應(yīng)用

機(jī)器人技術(shù)。許多人夢想在未來十年內(nèi)建立大規(guī)模的機(jī)器人數(shù)據(jù)收集管道和加速器，以將智能帶入現(xiàn)實(shí)世界，這非常令人興奮。正如機(jī)器人初創(chuàng)企業(yè)的高失敗率所示，這顯然充滿挑戰(zhàn)。對于 RL 而言，由于諸多原因，標(biāo)注獎勵困難、需應(yīng)對機(jī)器人形態(tài)的多樣性、存在模擬與現(xiàn)實(shí)的差距、非平穩(wěn)環(huán)境等。正如我們在自動駕駛汽車上看到的，它們也不一定具有經(jīng)濟(jì)效益。
推薦系統(tǒng)。這可以視為人類偏好的延伸，但更加精準(zhǔn)。我們可以利用 RL 為用戶推薦產(chǎn)品，并觀察他們是否使用或購買。不過，這樣做也會帶來一些弊端：如果領(lǐng)域過于狹窄，可能會限制推薦范圍；而如果領(lǐng)域過于寬泛（比如“生活建議”這類），則可能面臨更多干擾性的反饋結(jié)果。
AI 研究。我們可以利用 RL 進(jìn)行“AI 研究”（AI Scientist; by Chris Lu et al. 2024），并訓(xùn)練模型來訓(xùn)練其他模型以最大化基準(zhǔn)性能。從某種意義上說，這并非狹窄領(lǐng)域，但在實(shí)踐中確實(shí)如此。此外，正如 Thinking Machines 所寫：“最重要的突破往往來自重新思考我們的目標(biāo)，而不僅僅是優(yōu)化現(xiàn)有指標(biāo)。”
交易。現(xiàn)在我們有一個(gè)有趣的指標(biāo)，它基本上無法被 hack（模型可能會學(xué)習(xí)市場操縱），但你可能會在該過程中損失大量資金（你的 RL 智能體可能會學(xué)會不參與交易le ）。
計(jì)算機(jī)動作數(shù)據(jù)。就 RL 向模型教授流程而言，我們可以訓(xùn)練模型來執(zhí)行電腦上的操作（類似于機(jī)器人技術(shù)）。特別是當(dāng)結(jié)合人類數(shù)據(jù)（例如許多交易公司記錄的員工操作數(shù)據(jù)）時(shí)，可以結(jié)合使用下一個(gè) token 預(yù)測和 RL 來實(shí)現(xiàn)這個(gè)目標(biāo)。但這同樣也不容易，人們一般不會同意他們的數(shù)據(jù)被記錄（不同于互聯(lián)網(wǎng)通過參與內(nèi)容來獲取數(shù)據(jù)，大多數(shù)人不會同意使用按鍵記錄器）。編碼與此相關(guān)。對過去的測試用例進(jìn)行 RL 是可驗(yàn)證的，但生成測試用例的過程則不可驗(yàn)證。

最后想說的：假設(shè)我們犧牲一些多樣性。你可以將 RL 應(yīng)用于家庭環(huán)境中的產(chǎn)品指標(biāo)，無論是用于電子游戲的 RL，還是 Claude 試圖操作自動售貨機(jī)，或其他某種利潤或用戶參與度的概念。可能奏效的原因有很多——但挑戰(zhàn)在于如何將此轉(zhuǎn)化為一個(gè)多樣化的獎勵信號，并將其擴(kuò)展為一個(gè)突破性的范式變革。

無論如何，我認(rèn)為在一個(gè)像互聯(lián)網(wǎng)一樣優(yōu)雅且高效的系統(tǒng)中，我們離發(fā)現(xiàn) RL 的正確對偶，還很遙遠(yuǎn)。

但我希望你們能懷揣著這樣的夢想：總有一天，我們會弄清如何創(chuàng)造出這一切，這將是一件大事：

https://kevinlu.ai/the-only-important-technology-is-the-internet#planetary-scale-data

整理：小羊

如需轉(zhuǎn)載或投稿，請直接在公眾號內(nèi)留言

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

分享到：

上一篇：羅德曼這張卡亮點(diǎn)還真不是籃板

下一篇：全新日產(chǎn)Sentra預(yù)想圖曝光：造型更激進(jìn)，三套動力可選

溫馨提示：以上內(nèi)容和圖片整理于網(wǎng)絡(luò)，僅供參考，希望對您有幫助！如有侵權(quán)行為請聯(lián)系刪除！

亚洲性欧美在线se-亚洲性欧美色另-亚洲性免费-亚洲性猛交xxxx-亚洲性久久久影院-亚洲性精品

知識分享

停止RL研究！前OpenAI研究員：互聯(lián)網(wǎng)才是唯一重要的技術(shù)

猜你喜歡

熱門排行

看了又看

最新標(biāo)簽

友情鏈接：