「Tokens是胡扯」，Mamba作者拋出顛覆性觀點，揭露Transformer深層缺陷

發(fā)布時間：2025-07-10 07:42:10 作者：玩站小弟

我要評論

機器之心編譯原文作者：Albert Gu編輯：陳陳、杜偉「Tokenization分詞）是 Transformer 模型為彌補自身缺陷不得不戴上的枷鎖。」近日，Mamba 作者、CMU 助理教授、Ca 。

機器之心編譯

原文作者：Albert Gu

「Tokens是胡扯」，Mamba作者拋出顛覆性觀點，揭露Transformer深層缺陷

編輯：陳陳、胡扯杜偉

「Tokens是胡扯」，Mamba作者拋出顛覆性觀點，揭露Transformer深層缺陷

「Tokenization（分詞）是作者拋 Transformer 模型為彌補自身缺陷不得不戴上的枷鎖。」

「Tokens是胡扯」，Mamba作者拋出顛覆性觀點，揭露Transformer深層缺陷

近日，出顛層缺Mamba 作者、覆性CMU 助理教授、觀點Cartesia AI 首席科學(xué)家 Albert Gu 撰寫了一篇新博客，揭露探討了狀態(tài)空間模型（SSM）和 Transformer 之間的胡扯權(quán)衡，并提出了這樣一種觀點。作者拋

這篇博客改編自 Albert Gu 過去一年來多次進(jìn)行的出顛層缺一場演講。雖然演講內(nèi)容通俗易懂，覆性面向比較廣泛的觀點受眾群體，但其中的揭露一些有趣的見解、觀點和原理闡釋，胡扯相信對專業(yè)研究者也不乏啟發(fā)價值。作者拋

在社交媒體 X 上，出顛層缺Albert Gu 拋出了「tokens are bullshit」的觀點，并預(yù)告了接下來要發(fā)布的重大架構(gòu)進(jìn)展。

圖源：https://x.com/_albertgu/status/1942615020111876248

評論區(qū)的很多網(wǎng)友贊成 Albert Gu 的觀點，認(rèn)為移除 tokenization 會在計算效率方面帶來積極影響。

狀態(tài)空間模型

本文首先定義了什么是狀態(tài)空間模型（State Space Model，SSM）。

下面的公式定義了（結(jié)構(gòu)化）狀態(tài)空間模型，它源自一系列工作，最終催生了 Mamba。狀態(tài)空間模型可被視為現(xiàn)代版本的循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN），具有一些關(guān)鍵的特性。盡管實現(xiàn)這類模型需要大量技術(shù)工作，但本文首先提煉出了使這類模型成功匹配 Transformer 語言建模性能的核心要素。

三大要素

1. 狀態(tài)大小

SSM 的一大特性是其隱藏狀態(tài) h_t 的維度大于輸入和輸出「x_t, y_t.」。關(guān)鍵思路在于：在自回歸建模中，任何循環(huán)網(wǎng)絡(luò)的隱藏狀態(tài)是其獲取模型上下文的唯一途徑。所以，對于語言等信息密集模態(tài)的建模，模型需要足夠大的狀態(tài)空間來存儲其后續(xù)想要調(diào)用的相關(guān)信息。

在 SSM 中，如果每個輸入 x_t 是一維標(biāo)量，則隱藏狀態(tài) h_t 為 N 維向量，其中 N 是獨立超參數(shù)，被稱為狀態(tài)空間、狀態(tài)維度或者狀態(tài)擴展因子。這類模型也被稱為 SISO（單輸入單輸出）SSM，允許模型存儲的信息是 LSTM 和 GRU 等傳統(tǒng) RNN 的 N 倍。

2. 狀態(tài)表現(xiàn)力

模型不僅需要擁有足夠大的狀態(tài)空間以在理論上存儲相關(guān)上下文信息，更需要具備表現(xiàn)力強大的狀態(tài)更新函數(shù)，以精確編碼和調(diào)用其需要的信息。

早期版本的「線性時不變」SSM 使用簡單的遞歸公式「h_t=Ah_t?1+Bx_t」，其更新規(guī)則在每一個時間步保持恒定。雖然這一機制對音頻等壓縮數(shù)據(jù)的適用性很好，卻難以應(yīng)對語言這類信息速率多變的序列 —— 模型必須選擇性記憶關(guān)鍵信息。以 Mamba 為代表的選擇性 SSM 通過動態(tài)轉(zhuǎn)移矩陣解決了此問題：其轉(zhuǎn)移矩陣隨時間變化且依賴數(shù)據(jù)本身，使得遞歸過程更具有表現(xiàn)力。值得注意的是，這些機制與經(jīng)典 RNN 的門控結(jié)構(gòu)緊密相關(guān)。

這正是現(xiàn)代循環(huán)模型最活躍的研究領(lǐng)域，聚焦理解轉(zhuǎn)移矩陣 A_t 不同參數(shù)化的理論表現(xiàn)力，以及這些參數(shù)化如何影響模型在狀態(tài)空間中的記憶能力。

3. 訓(xùn)練效率

擴展循環(huán)狀態(tài)的容量和表現(xiàn)力很重要，但隨之而來的是模型面臨的關(guān)鍵計算效率瓶頸。Mamba 通過精心設(shè)計遞歸參數(shù)化方式，并采用經(jīng)典的并行掃描算法攻克了這一難題。

當(dāng)前涌現(xiàn)的諸多算法創(chuàng)新都具有以下共性特征：

并行化能力：致力于實現(xiàn)并行化，并在 GPU、TPU 等加速器上達(dá)到實用級效率 —— 通常利用矩陣乘法（matmuls）作為主力運算；
內(nèi)存管理機制：必須精細(xì)控制內(nèi)存使用，尤其是采用狀態(tài)擴展的模型，實際上在主內(nèi)存中無法實體化整個狀態(tài)！Mamba 憑借對 GPU 存儲層級的深度認(rèn)知實現(xiàn)硬性解決，而大多數(shù)替代方案通過重構(gòu)整個計算路徑，在并行訓(xùn)練過程中規(guī)避顯式狀態(tài)計算；
線性特征：模型通常需要保持關(guān)于「x_t」的線性特征，因而一些人稱此類模型為線性循環(huán)模型。線性特征對計算效率以及建模或優(yōu)化能力均產(chǎn)生重要影響（具體分析詳見下文）。

Mamba—— 系統(tǒng)性整合

需特別指出，以下三大技術(shù)要素均非首創(chuàng)：

要素 1：線性注意力和早期 SSM 已經(jīng)采用類似的狀態(tài)擴展公式；
要素 2：選擇性機制的設(shè)計靈感來自于 LSTM 和 GRU 等經(jīng)典 RNN 的門控結(jié)構(gòu)，兩者緊密相關(guān)；
要素 3：并行掃描算法在 S5 和 LRU 等早期 SSM 或線性 RNN 中已使用，線性注意力變體也采用了基于矩陣乘法的并行訓(xùn)練算法。

Mamba 的核心突破在于證明了：當(dāng)將所有這些技術(shù)要素整合在一起時，模型在語言建模任務(wù)中可以實現(xiàn)跨越式性能突破，并達(dá)到比肩 Transformer 的效果。

現(xiàn)代循環(huán)模型

此后，現(xiàn)代循環(huán)模型研究呈現(xiàn)爆發(fā)式增長，各類新模型密集涌現(xiàn)。這些研究雖然動機不同，術(shù)語繁雜，卻共享類似的技術(shù)內(nèi)核：

RWKV、xLSTM 和 Griffin 等模型延續(xù)了 RNN 范式，將狀態(tài)擴展稱為矩陣化狀態(tài)（要素 1），將選擇性機制稱為門控；
線性注意力率先融合了要素 1 和要素 3（并行算法），后續(xù)變體如 GLA、Gated DeltaNet 等引入數(shù)據(jù)依賴型遞歸選擇性機制，并使用基于注意力的術(shù)語（如使用 (K,Q,V) 而不是 (B,C,X)）。Mamba-2 可以同時視為 SSM 或線形注意力；
近期的很多模型提出了測試時訓(xùn)練 / 回歸框架，將遞歸更新視為上下文記憶的在線優(yōu)化過程。在這些框架中，狀態(tài)被視為聯(lián)想記憶，并行化通過小批量梯度下降實現(xiàn)。

核心共性在于：幾乎所有模型可納入相同的 SSM 公式 (1)，主要差異在于轉(zhuǎn)移矩陣 A_t 的結(jié)構(gòu)設(shè)計（要素 2）以及對應(yīng)的高校訓(xùn)練算法（要素 3）。本文采用狀態(tài)空間模型（或現(xiàn)代循環(huán)模型）來統(tǒng)稱這一大類新興模型 —— 它們精確捕捉了 SISO 線性遞歸和狀態(tài)擴展等核心共性特征。當(dāng)然，考慮到技術(shù)同源性，其他命名體系同樣合理！

盡管該領(lǐng)域的研究加速推進(jìn)，并且新模型持續(xù)涌現(xiàn)，但本文認(rèn)為當(dāng)前模型仍然呈現(xiàn)高度同質(zhì)化的特征，實證性能也基本相當(dāng)。尤其是相較于二次注意力機制，這些模型之間的相似度遠(yuǎn)高于它們于 Transformer 的差異。

接下來將重點剖析 SSM 和 Transformer 之間的高階權(quán)衡關(guān)系。

狀態(tài)、大腦和數(shù)據(jù)庫

本文認(rèn)為：可以通過觀察不同模型在自回歸狀態(tài)中存儲了什么，以及它們是如何操作這些狀態(tài)的，來更好地理解它們之間的權(quán)衡。這是什么意思呢？

從某種意義上說，每一個自回歸模型 —— 比如像現(xiàn)代大語言模型那樣按從左到右順序生成數(shù)據(jù)的模型 —— 都是一種「狀態(tài)空間模型」，它在內(nèi)存中保存某種狀態(tài)，并在每一個時間步中對其進(jìn)行更新（比如 LLM 生成每一個詞之間的過程）。

序列模型的自回歸狀態(tài)

自回歸 Transformer 的核心組件是（因果）自注意力機制，往往通過一種特定的操作來定義：計算序列中每一對元素之間的相互作用。因此，其計算成本隨著序列長度呈二次增長，這也常被視為注意力機制的主要劣勢。

相比之下，由于遞歸公式（1）中每一步的計算耗時是常數(shù)，整個序列的處理時間與序列長度成線性關(guān)系，這通常被認(rèn)為是狀態(tài)空間模型的主要優(yōu)勢。

但是，與其去思考這些模型在訓(xùn)練階段的計算成本，本文認(rèn)為更有啟發(fā)性的是去關(guān)注它們在推理階段處理新輸入時會發(fā)生什么。

當(dāng)一個自注意力層接收到一個新 token 時，它需要將這個 token 與序列中此前出現(xiàn)的所有元素進(jìn)行比較。這意味著，它必須緩存整個上下文中每一個先前 token 的表示。每接收一個新輸入，它都必須將其加入緩存，因此緩存的大小會隨著上下文長度線性增長。
相比之下，狀態(tài)空間模型始終將上下文「x_1,? ,x_t」總結(jié)為一個隱藏狀態(tài) h_t（見公式 (1)），這個隱藏狀態(tài)的大小是固定的。這個固定大小的狀態(tài)就是模型與數(shù)據(jù)交互的唯一方式：它持續(xù)接收數(shù)據(jù)流，將其壓縮進(jìn)狀態(tài)中，并依賴這一狀態(tài)來做出決策或生成新輸出。

這里甚至不需要深入探討這些不同模型的具體定義。可以粗略地說，這些模型完全可以從「自回歸狀態(tài)」的第一性原理出發(fā)來定義：

Transformer（自注意力機制）的特點是其狀態(tài)會緩存歷史中的每一個元素，并通過遍歷整個緩存來與新輸入的數(shù)據(jù)進(jìn)行交互。
狀態(tài)空間模型（SSM）的特點則是其狀態(tài)會壓縮整個歷史信息，并以在線流式的方式與新輸入數(shù)據(jù)進(jìn)行交互。

粗略的類比

盡管狀態(tài)空間模型（SSM）常被視為更高效但稍遜于 Transformer 的變體，事情其實并沒有那么簡單。

即使不考慮計算效率，這兩類模型在歸納偏置（或建模能力）上也存在不同的權(quán)衡。考慮到兩者處理數(shù)據(jù)的方式差異，本文做了一個粗略但貼切的類比來說明這一點。

Transformer 更像是數(shù)據(jù)庫：它們把每一個新的觀測都當(dāng)作重要的信息存檔，以備將來查用。相比之下，狀態(tài)空間模型（SSM）更像是大腦：擁有有限大小的記憶，一直處于工作狀態(tài)，實時處理新輸入并產(chǎn)生輸出。

這個類比雖然有些淺顯，但在直觀上確實有助于解釋一些經(jīng)驗上觀察到的行為模式。例如，SSM 無法在只讀一遍的情況下記住整個電話簿并完整背誦出來，或者從記憶中準(zhǔn)確回憶任意一個人的電話號碼。當(dāng)然，人類也做不到這一點 —— 我們在精確記憶和檢索方面表現(xiàn)得非常差 —— 但這似乎并不妨礙智能的產(chǎn)生！

另一方面，Transformer 在上下文長度上有一個根本的硬性限制（當(dāng)緩存大小被超過時），而像 SSM 這樣的遞歸模型在理論上可以像人類一樣，保有一段無限長（但模糊）的過去記憶。

一個更有趣的經(jīng)驗發(fā)現(xiàn) —— 也許可以從上述類比中預(yù)測到 —— 將這兩種信息處理方式結(jié)合起來，可能會表現(xiàn)得更強大！就像人類的智能能夠通過使用筆記本和外部參考資料得到增強一樣，當(dāng)語言模型通過一種簡單的交替策略將 SSM 與注意力層結(jié)合使用時，其能力也得到了提升。

更令人感興趣的是，經(jīng)過多個研究團隊的獨立驗證（包括 H3、Jamba、Zamba、Samba 以及隨后涌現(xiàn)出的許多模型），最優(yōu)的 SSM 與注意力層的比例大致在 3:1 到 10:1 之間。如果你認(rèn)同這樣一個粗略的類比（即人類智能主要依賴于大腦，并通過輕量訪問外部數(shù)據(jù)庫得到增強），那么這個比例似乎也在某種程度上印證了這一觀點！

如今，這類混合模型已被大規(guī)模擴展到非常龐大的規(guī)模（例如采用 MoE 架構(gòu)的總參數(shù)量達(dá)到 5600 億），并由一些頂級實驗室推出，如 NVIDIA 的 Nemotron-H 和騰訊的 T1/TurboS，都已在多個任務(wù)上取得了最先進(jìn)的性能。

Is Attention All You Need?

所以，「Attention is all you need」，對吧？如今普遍存在一種看法：Transforme 是終極架構(gòu)，能夠從原始數(shù)據(jù)中學(xué)到任何東西，只要數(shù)據(jù)足夠多、計算資源充足，唯一的瓶頸就是算力。

但事實并非如此簡單。Attention 確實非常出色，已經(jīng)成為幾乎所有模態(tài)的核心骨干，從最初在語言上的應(yīng)用拓展到了視覺、音頻，甚至更多領(lǐng)域。不過，這其中還有更多細(xì)節(jié)值得探討。

本文想提出的觀點是：要真正有效地使用 Transformer，數(shù)據(jù)必須經(jīng)過相當(dāng)程度的預(yù)處理。為了支持這個觀點，可以先來看看 Transformer 在實際中的使用方式。

在幾乎所有真實的應(yīng)用流程中，原始數(shù)據(jù)在輸入 Transformer 之前都會先通過某種編碼器進(jìn)行處理，例如：

在視覺任務(wù)中，無論是分類還是生成，都需要一個「切塊」（patchification）步驟；
在語言建模中，需要先進(jìn)行「分詞」（tokenization）。

這聽起來也許很直觀：畢竟注意力機制的計算復(fù)雜度是二次的，我們會希望盡量簡化輸入數(shù)據(jù)（比如縮短序列長度）。

但本文想說的并不僅僅是計算效率的問題，而是一個更強的觀點：Transformer 在建模能力上本身就存在一定的局限性。

我們應(yīng)該擺脫 tokenization 嗎？

Tokenization 是所有語言建模流程中一個重要步驟，最常見的是 BPE 算法，本文中 tokenization 與 BPE 可互換使用。

但這個過程帶來很多問題，如詢問大模型「strawberry 里有幾個字母 r？」，它們經(jīng)常回答錯誤，這些都暴露了分詞機制在理解語言細(xì)節(jié)上的局限。

那我們?yōu)槭裁催€要使用 tokenization 呢？

從大量觀點來看，幾乎所有人都同意：tokenizer 既笨拙又丑陋，但它又必然存在。

在實際應(yīng)用中，tokenization 大約可以將序列長度縮短一個數(shù)量級左右，這顯著提升了語言模型的運算效率。盡管存在一些極端案例，但大多數(shù)情況下，它們確實能用。

但本文恰恰相反，認(rèn)為我們應(yīng)該徹底擺脫 tokenization，這不僅僅是出于實際原因，也是為了美觀和無形的考慮。

除了可以修復(fù)邊緣案例（如 strawberry 這個單詞里有幾個字母 r），移除 tokenization 更符合深度學(xué)習(xí)的本質(zhì)。

深度學(xué)習(xí)一直都致力于用強大的端到端神經(jīng)網(wǎng)絡(luò)取代手工設(shè)計的特征工程，這些神經(jīng)網(wǎng)絡(luò)可以自動從數(shù)據(jù)中學(xué)習(xí)模式。從 CNN 取代計算機視覺領(lǐng)域中人工設(shè)計的邊緣檢測器，到 Transformers 取代自然語言處理領(lǐng)域的語言特征，人工智能的重大進(jìn)步總是伴隨著更少的數(shù)據(jù)處理和更多的自動學(xué)習(xí)（正如《苦澀的教訓(xùn)》所倡導(dǎo)的那樣）。

用端到端模型替代 tokenization 將帶來深遠(yuǎn)的影響，具體體現(xiàn)在以下幾個方面：

擴展律（scaling laws）：從原始數(shù)據(jù)中學(xué)習(xí)更優(yōu)的模式，總能帶來更強大的模型能力；
多語言與多模態(tài)處理：對某些語言和其他類型的序列數(shù)據(jù)而言，tokenization 一直是一個出了名的難題，甚至根本無法適配；
推理能力：模型可以從數(shù)據(jù)中學(xué)習(xí)到更具語義的模式，并在更高抽象層面上進(jìn)行推理。

假如沒有 tokenization，會發(fā)生什么？

LLM 時代，幾乎沒有幾篇論文真正認(rèn)真思考或嘗試解決「去除 tokenizer」這個問題。甚至很難找到一套可靠的基準(zhǔn)，用來評估無 tokenizer 模型的表現(xiàn)。

假如沒有 tokenization，會發(fā)生什么？

由上圖，我們可以得出一些讓人頗感意外的結(jié)論。

但現(xiàn)在我們只做一件事：保持模型和數(shù)據(jù)不變，僅僅取消 tokenization（直接用字節(jié)輸入），結(jié)果是 ——Transformer 用上了更多的計算資源，表現(xiàn)卻明顯落后于 SSM。

首先要指出的是：在 FLOPs 匹配的前提下，SSM 的表現(xiàn)遠(yuǎn)優(yōu)于 Transformer。

這一點對一些人來說也許并不意外，因為在字節(jié)級建模中，輸入序列遠(yuǎn)長于 BPE token 序列，而 Transformer 會因其對序列長度呈二次復(fù)雜度的計算瓶頸而受到影響。

然而，Transformer 的弱點并不僅僅在于效率問題，更在于其建模能力的局限。

值得注意的是，即使讓 Transformer 使用遠(yuǎn)多于 SSM 的計算資源（以數(shù)據(jù)量匹配，而非計算量匹配），SSM 依然始終領(lǐng)先。

作為對比：如果用完全相同的數(shù)據(jù)對這兩類模型進(jìn)行對比，但對數(shù)據(jù)做了 tokenization，那么兩者的困惑度（perplexity）曲線會基本相似（甚至 Transformer 會略優(yōu)），并且它們的 FLOP 也會差不多。

但如果在保持模型和數(shù)據(jù)不變的前提下，只是將輸入不進(jìn)行 tokenize，Transformer 雖然使用了更多的計算量，其性能反而相對 SSM 有明顯下降。

最初的 Mamba 論文顯示，在 DNA 語言建模任務(wù)中，Mamba 在無需特別調(diào)優(yōu)的情況下，其擴展能力明顯優(yōu)于 Transformer。

這或許給我們一點啟示：tokenization 本質(zhì)上是為 Transformer 缺陷設(shè)計的補丁，而 SSM 類模型在原生處理低語義密度數(shù)據(jù)時展現(xiàn)出更根本的建模優(yōu)勢，這可能重塑我們對語言模型本質(zhì)能力的認(rèn)知框架。

要理解這里發(fā)生了什么，一個有用的思維模型是回到自回歸狀態(tài)。簡而言之，由于 Transformer 顯式緩存了所有先前的 token，它就帶有一種歸納偏置：傾向于關(guān)注每一個具體的 token。或者更簡潔地說：軟注意力的歸納偏置，其實是硬注意力。

在處理語言時，我們通常關(guān)注的是詞（word）或子詞（如詞根、前綴 / 后綴）這樣的單位，它們具有明確的語義含義。

但反過來看，如果這種假設(shè)不成立 —— 比如閱讀時我們很少會關(guān)注某個單獨的字符，那么注意力機制的表現(xiàn)就會下降。

更有趣的是，很多其他類型的數(shù)據(jù)處于這兩者之間的模糊地帶。

比如圖像中的 patch 在某些情況下能捕捉到顯著特征，有時是有意義的；但在其他時候，它們可能毫無用處，或者語義不完整。

一個假想

當(dāng)序列中存在噪聲時會發(fā)生什么？

眾所周知，LLM 的訓(xùn)練數(shù)據(jù)通常需要大量的預(yù)處理、篩選和清洗，但現(xiàn)實世界中的數(shù)據(jù)（尤其是多模態(tài)數(shù)據(jù)）并非如此。人類也能在大量噪聲中學(xué)習(xí)得很好！

那么，在一個非常簡單的情形下，如果我們在序列中插入一些不包含任何信息的填充 token，會發(fā)生什么呢？

圖中揭示了標(biāo)準(zhǔn)注意力機制的又一個失敗模式：計算不應(yīng)該按 k^2 擴展，推理時的內(nèi)存消耗更不應(yīng)該這樣擴張，緩存這些毫無意義的噪聲 token 是完全沒有意義的。?

相比之下，SSM 做得更好：即使冗余因子增加，模型的內(nèi)存不會增加。

但這也并未完全解決問題，因為任何標(biāo)準(zhǔn)架構(gòu)的計算量仍然會隨著 token 的增加而增加。所以說，所有當(dāng)前的大模型在面對噪聲或冗余時都存在性能損耗的問題。

所以，理想的模型體系架構(gòu)應(yīng)該在不（實質(zhì)上）增加計算或內(nèi)存使用的情況下，能夠處理這種帶有填充序列的任務(wù)，而不是盲目地處理所有 token。?

更一般地，假設(shè)我們有一個數(shù)據(jù)集的兩個副本，其中一個包含很多額外的噪聲，但總體而言，它們具有基本相同的有用信息。我們應(yīng)該預(yù)期正確的架構(gòu)在這兩個數(shù)據(jù)集上的表現(xiàn)基本相同。

這就引出一個問題：Is attention all you need? 答案是注意力機制對處于正確抽象層級的預(yù)壓縮數(shù)據(jù)最為有效。

當(dāng)然，這種說法是對實際情況的過度簡化，作者表示也不知道該如何正式定義抽象層級這種概念。但作者相信，在某種模糊的意義上，這確實是對的。?

狀態(tài)空間模型與 Transformer 之間的權(quán)衡

狀態(tài)空間模型

先說優(yōu)勢，SSM 是一種天然具備狀態(tài)記憶的模型，擅長高效、交互式、在線處理。缺點是缺乏精細(xì)的回憶（recall）和檢索能力。?

這兩者好比同一枚硬幣的兩面，根源都在于狀態(tài)壓縮機制的本質(zhì)特性。

那么壓縮是否其實是智能的根本特征之一？是否有可能，正是因為將信息強行壓縮進(jìn)一個更小的狀態(tài)空間，才迫使模型去學(xué)習(xí)更有用的模式和抽象？

雖然在很多文獻(xiàn)中，壓縮狀態(tài)常被視為一種缺陷，但這種觀點的產(chǎn)生可能是因為壓縮帶來的弱點很容易被量化衡量，而壓縮所帶來的那些更微妙的、定性的正面影響卻很難被準(zhǔn)確評估。

無論如何，現(xiàn)在肯定有很多有趣的應(yīng)用，SSM 看起來是非常合適的工具。

Transformer

Transformer 的表現(xiàn)非常出色，事實上，在那些需要關(guān)注上下文中單個 token 的任務(wù)中，Transformer 幾乎是唯一能夠勝任的工具。

Transformer 的優(yōu)勢是擁有完美的召回率，并能在其上下文中對單個 token 進(jìn)行細(xì)粒度的操作。

那么它的缺點呢？大家都知道 Transformer 的主要弱點是其二次方復(fù)雜度。

并非如此。這篇文章的主題是要闡明 Transformer 確實存在歸納偏差，這使其在建模能力方面存在弱點，而不僅僅是效率方面。與 SSM 一樣，Transformer 的高層優(yōu)勢和劣勢是同一枚硬幣的兩面，都是其自回歸狀態(tài)結(jié)構(gòu)的結(jié)果：token 緩存會維持給定輸入分辨率的粒度。

Transformer 弱點是受制于賦予它們的 token。

換句話說，它們對數(shù)據(jù)的分辨率和語義內(nèi)容更加敏感。Transformer 的特點在于其上下文緩存，它為序列中的每個元素存儲單獨的表示，這意味著每個元素最好都有用。

最后，讓我們來談?wù)劗?dāng)前人工智能發(fā)展浪潮的主要驅(qū)動力之一：擴展律 Scaling Laws，或者說，在模型上投入更多計算資源會持續(xù)帶來更多能力的現(xiàn)象。

這些定律總是以 FLOP（浮點運算次數(shù)）為 x 軸，以某種性能指標(biāo)為 y 軸來繪制，其理念是，這條線的斜率衡量「計算能力轉(zhuǎn)化為能力的速率」。事實上，本文認(rèn)為有一種流行的觀點認(rèn)為 Transformer 只是一種以最佳方式執(zhí)行這種轉(zhuǎn)換的工具。

這很好地描述了架構(gòu)研究的目標(biāo)，本文只是在尋找一個能夠以最佳方式執(zhí)行這種轉(zhuǎn)換的黑匣子。從這個角度來看，只有一個核心問題：

模型是否合理地利用了它的計算能力？

換句話說，本文希望每個 FLOP 都有效。希望讀完這篇文章后，大家能夠清楚地認(rèn)識到 Transformer 遠(yuǎn)非最佳方案（至少作者已經(jīng)說服了自己！）。

題外話：這真的重要嗎？

盡管作者被譽為 Transformer 替代方案方向的領(lǐng)導(dǎo)者，但他同時也認(rèn)為 Transformer 非常棒，注意力機制確實是建模的基本原語。但作者也認(rèn)為，Transformer 本身顯然不是最終的解決方案。我們還有很多工作要做。

博客鏈接：https://goombalab.github.io/blog/2025/tradeoffs/#a-coarse-analogy

關(guān)鍵詞 : 注意力新浪科技公眾號

“掌”握科技鮮聞（微信搜索techsina或掃描左側(cè)二維碼關(guān)注）

相關(guān)新聞