當(dāng)前位置：

MIT發(fā)布自適應(yīng)語言模型！新任務(wù)，自生成遠(yuǎn)超「GPT

時間:2025-07-11 02:32:57 出處:百科閱讀（143）

編輯：LRS

MIT發(fā)布自適應(yīng)語言模型！新任務(wù)，自生成遠(yuǎn)超「GPT

【新智元導(dǎo)讀】自適應(yīng)語言模型框架SEAL，布自讓大模型通過生成自己的適應(yīng)生成微調(diào)數(shù)據(jù)和更新指令來適應(yīng)新任務(wù)。SEAL在少樣本學(xué)習(xí)和知識整合任務(wù)上表現(xiàn)優(yōu)異，語言遠(yuǎn)超顯著提升了模型的模型適應(yīng)性和性能，為大模型的新任自主學(xué)習(xí)和優(yōu)化提供了新的思路。

MIT發(fā)布自適應(yīng)語言模型！新任務(wù)，自生成遠(yuǎn)超「GPT

經(jīng)過海量文本預(yù)訓(xùn)練后的布自大模型，已經(jīng)能夠很好地理解語言，適應(yīng)生成并根據(jù)要求來生成文本。語言遠(yuǎn)超

不過，模型在部署大模型應(yīng)用于特定任務(wù)、新任整合新信息或?qū)W習(xí)新的布自推理技能時，仍然需要人工標(biāo)注數(shù)據(jù)對模型權(quán)重進(jìn)行微調(diào)。適應(yīng)生成

大模型是語言遠(yuǎn)超否可以通過「自己生成訓(xùn)練數(shù)據(jù)和學(xué)習(xí)方法」來實現(xiàn)對新任務(wù)的自適應(yīng)？

麻省理工學(xué)院的研究人員提出了一個全新的自適應(yīng)語言模型（Self-Adapting LLMs，簡稱SEAL）的模型框架，可以讓大模型通過生成自己的新任微調(diào)數(shù)據(jù)和更新指令來實現(xiàn)自適應(yīng)。

論文鏈接：https://arxiv.org/pdf/2506.10943

項目主頁：https://jyopari.github.io/posts/seal

與以往依賴獨立適應(yīng)模塊或輔助網(wǎng)絡(luò)的方法不同，SEAL直接利用模型自身的生成能力來參數(shù)化和控制其自我適應(yīng)過程。

當(dāng)模型接收到新的輸入時，會生成一個「自編輯」（self-edit）——即自然語言指令，用于指定數(shù)據(jù)和優(yōu)化超參數(shù)，以更新模型的權(quán)重。

通過有監(jiān)督微調(diào)（SFT），自編輯能夠?qū)崿F(xiàn)持久的權(quán)重更新，從而實現(xiàn)長期的適應(yīng)性。

為了訓(xùn)練模型生成有效的自編輯，研究人員采用強化學(xué)習(xí)循環(huán)，以「更新后模型在下游任務(wù)中的表現(xiàn)」作為獎勵信號。

在嘗試「將新的事實性知識整合到LLM」的實驗上，研究人員使用SEAL模型生成的合成數(shù)據(jù)進(jìn)行微調(diào)。

相比與直接在原始文本上微調(diào)不同，經(jīng)過強化學(xué)習(xí)訓(xùn)練后，使用SEAL生成的合成數(shù)據(jù)進(jìn)行微調(diào)，將SQuAD無上下文版本的問題回答準(zhǔn)確率從33.5%提高到47.0%，甚至超過了GPT-4.1生成的合成數(shù)據(jù)。

研究人員還在ARC-AGI基準(zhǔn)測試的簡化子集上對SEAL進(jìn)行了少樣本學(xué)習(xí)評估，模型需要利用一組工具自主選擇合成數(shù)據(jù)增強和優(yōu)化超參數(shù)（例如學(xué)習(xí)率、訓(xùn)練周期、對特定token類型的損失計算）。

實驗表明，使用SEAL自動選擇和配置這些工具，比標(biāo)準(zhǔn)的上下文學(xué)習(xí)（ICL）和沒有強化學(xué)習(xí)訓(xùn)練的自編輯表現(xiàn)更好。

自適應(yīng)大模型

自適應(yīng)大模型（SEAL）可以幫助語言模型更好地適應(yīng)特定任務(wù)。

假設(shè)語言模型的參數(shù)為θ，C是與任務(wù)相關(guān)的上下文信息，τ是用于評估模型適應(yīng)性的下游任務(wù)，SEAL會針對每個任務(wù)實例（C, τ）進(jìn)行操作。

在知識整合任務(wù)中，C是需要整合到模型內(nèi)部知識中的段落，τ是關(guān)于該段落的問題和答案；

在少樣本學(xué)習(xí)任務(wù)中，C是新任務(wù)的少量示例，τ是查詢輸入和真實輸出。

給定上下文C后，模型會生成一個自編輯（SE），通過有監(jiān)督微調(diào)的方式來更新自己的參數(shù)。

研究人員使用強化學(xué)習(xí)來優(yōu)化自編輯生成的過程：模型生成SE作為動作，根據(jù)生成SE后模型在τ上的表現(xiàn)獲得獎勵，并根據(jù)獎勵更新策略，以最大化預(yù)期獎勵。

獎勵與模型參數(shù)θ有關(guān)，所以強化學(xué)習(xí)的狀態(tài)為上下文C和參數(shù)θ

由于模型參數(shù)會不斷更新，之前版本模型收集的（狀態(tài)，動作，獎勵）三元組可能不再適用于當(dāng)前模型。

因此，研究人員采用「在線策略」方法，即從當(dāng)前模型中采樣自編輯，并基于當(dāng)前模型計算獎勵。

相比其他策略方法，ReSTEM采用的「拒絕采樣+有監(jiān)督微調(diào)」，可以讓訓(xùn)練過程更穩(wěn)定。

ReSTEM的過程為：首先從當(dāng)前模型策略中采樣一些候選輸出（即自編輯），然后只對那些獲得正獎勵的樣本進(jìn)行監(jiān)督微調(diào)，以此來強化模型的策略。

實驗結(jié)果

少樣本學(xué)習(xí)

研究人員使用了一個沒有經(jīng)過針對ARC（抽象和推理語料，Abstract and Reasoning Corpus）預(yù)訓(xùn)練的小型開源模型Llama-3.2-1B-Instruct進(jìn)行實驗。

由于大多數(shù)ARC任務(wù)對于未經(jīng)過ARC預(yù)訓(xùn)練的模型來說難度較大，研究人員從ARC訓(xùn)練集中篩選出11個任務(wù)，從評估集中篩選出8個任務(wù)，確保這些任務(wù)在最優(yōu)TTT（測試時訓(xùn)練，test-time training）配置下可以被基礎(chǔ)的Llama-3.2-1B-Instruct模型解決。

在訓(xùn)練過程中，研究人員使用ReSTEM方法，通過為每個訓(xùn)練任務(wù)采樣15個自編輯來訓(xùn)練模型。

每個自編輯分別應(yīng)用于生成15個更新后的模型，然后在對應(yīng)的測試樣本上進(jìn)行評估，只保留那些「經(jīng)過適應(yīng)后能夠為測試輸入生成正確輸出」的模型。

評估指標(biāo)為成功率：為每個保留的評估任務(wù)生成5個自編輯并評估模型，然后統(tǒng)計能夠產(chǎn)生正確輸出的自編輯的百分比，可以反映出所學(xué)自編輯生成策略的質(zhì)量。

對比基線方法包括上下文學(xué)習(xí)（ICL）、TTT+自編輯（無強化學(xué)習(xí)）和Oracle TTT（性能上限）。

與基線方法相比，SEAL顯著提高了適應(yīng)成功率（72.5%），而未經(jīng)強化學(xué)習(xí)訓(xùn)練的基礎(chǔ)模型的自編輯成功率僅為20%，不進(jìn)行任何適應(yīng)的成功率為0%

知識整合（Knowledge Incorporation）

研究人員使用Qwen2.5-7B模型，從SQuAD（斯坦福問答數(shù)據(jù)集）的段落中整合新的事實內(nèi)容。

對比基線包括基礎(chǔ)模型（直接在問答任務(wù)上評估，Base Model）、僅在段落上微調(diào)模型（Train on Passage）、在段落和自動生成的推論上訓(xùn)練模型（Train on Passage + Synthetic）、在段落和通過OpenAI API從GPT-4.1收集的模型生成推論上訓(xùn)練。

在單段落設(shè)置下，僅在段落上微調(diào)的模型相比基礎(chǔ)模型幾乎沒有提升（33.5% vs. 32.7%），表明僅使用原始數(shù)據(jù)是不夠的。

使用GPT-4.1生成的推論可以將準(zhǔn)確率提升到46.3%，比僅使用段落的基線提高了12.8個百分點。

使用Qwen2.5-7B模型生成的合成數(shù)據(jù)可以達(dá)到39.7%，提高了6.2個百分點。

經(jīng)過強化學(xué)習(xí)后，SEAL進(jìn)一步將準(zhǔn)確率提升到47.0%，盡管模型規(guī)模較小，但表現(xiàn)優(yōu)于使用GPT-4.1生成的合成數(shù)據(jù)。

在持續(xù)預(yù)訓(xùn)練（CPT）設(shè)置下，模型從200個段落中整合信息，并在所有974個相關(guān)問題上進(jìn)行評估。研究人員為每個段落采樣5個自編輯生成內(nèi)容，并將這些合成數(shù)據(jù)用于持續(xù)預(yù)訓(xùn)練。

結(jié)果顯示，SEAL在多段落設(shè)置下也優(yōu)于所有基線方法，準(zhǔn)確率達(dá)到43.8%。

雖然絕對性能低于單段落設(shè)置，但相對提升效果保持一致，這表明SEAL發(fā)現(xiàn)的編輯策略不僅適用于單個段落的合成數(shù)據(jù)生成，還能推廣到更廣泛的場景。

僅需兩次迭代，SEAL就超過了使用GPT-4.1數(shù)據(jù)的效果，后續(xù)迭代的提升效果逐漸減弱，表明策略迅速收斂到一種能夠「將段落提煉為易于學(xué)習(xí)的基本事實」的編輯風(fēng)格。

從例子中，可以看到強化學(xué)習(xí)可以促使生成更詳細(xì)的自編輯內(nèi)容，而這些更詳細(xì)的編輯又反過來提升了整體性能。

參考資料：

https://arxiv.org/abs/2506.10943

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

分享到：

上一篇：博主：18歲海翔加盟西班牙球隊，他曾效力上海根寶

下一篇：不是你胖，是你褲子沒挑對！這10條瘦到離譜！

溫馨提示：以上內(nèi)容和圖片整理于網(wǎng)絡(luò)，僅供參考，希望對您有幫助！如有侵權(quán)行為請聯(lián)系刪除！

亚洲性欧美在线se-亚洲性欧美色另-亚洲性免费-亚洲性猛交xxxx-亚洲性久久久影院-亚洲性精品

知識分享

MIT發(fā)布自適應(yīng)語言模型！新任務(wù)，自生成遠(yuǎn)超「GPT

猜你喜歡

熱門排行

看了又看

最新標(biāo)簽

友情鏈接：