「Tokens是胡扯」,Mamba作者拋出顛覆性觀點,揭露Transformer深層缺陷

機器之心編譯
原文作者:Albert Gu
編輯:陳陳、胡扯杜偉
「Tokenization(分詞)是作者拋 Transformer 模型為彌補自身缺陷不得不戴上的枷鎖。」
近日,出顛層缺Mamba 作者、覆性CMU 助理教授、觀點Cartesia AI 首席科學(xué)家 Albert Gu 撰寫了一篇新博客,揭露探討了狀態(tài)空間模型(SSM)和 Transformer 之間的胡扯權(quán)衡,并提出了這樣一種觀點。作者拋
這篇博客改編自 Albert Gu 過去一年來多次進(jìn)行的出顛層缺一場演講。雖然演講內(nèi)容通俗易懂,覆性面向比較廣泛的觀點受眾群體,但其中的揭露一些有趣的見解、觀點和原理闡釋,胡扯相信對專業(yè)研究者也不乏啟發(fā)價值。作者拋
在社交媒體 X 上,出顛層缺Albert Gu 拋出了「tokens are bullshit」的觀點,并預(yù)告了接下來要發(fā)布的重大架構(gòu)進(jìn)展。
圖源:https://x.com/_albertgu/status/1942615020111876248評論區(qū)的很多網(wǎng)友贊成 Albert Gu 的觀點,認(rèn)為移除 tokenization 會在計算效率方面帶來積極影響。
狀態(tài)空間模型
本文首先定義了什么是狀態(tài)空間模型(State Space Model,SSM)。
下面的公式定義了(結(jié)構(gòu)化)狀態(tài)空間模型,它源自一系列工作,最終催生了 Mamba。狀態(tài)空間模型可被視為現(xiàn)代版本的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),具有一些關(guān)鍵的特性。盡管實現(xiàn)這類模型需要大量技術(shù)工作,但本文首先提煉出了使這類模型成功匹配 Transformer 語言建模性能的核心要素。
三大要素
1. 狀態(tài)大小
SSM 的一大特性是其隱藏狀態(tài) h_t 的維度大于輸入和輸出「x_t, y_t.」。關(guān)鍵思路在于:在自回歸建模中,任何循環(huán)網(wǎng)絡(luò)的隱藏狀態(tài)是其獲取模型上下文的唯一途徑。所以,對于語言等信息密集模態(tài)的建模,模型需要足夠大的狀態(tài)空間來存儲其后續(xù)想要調(diào)用的相關(guān)信息。
在 SSM 中,如果每個輸入 x_t 是一維標(biāo)量,則隱藏狀態(tài) h_t 為 N 維向量,其中 N 是獨立超參數(shù),被稱為狀態(tài)空間、狀態(tài)維度或者狀態(tài)擴展因子。這類模型也被稱為 SISO(單輸入單輸出)SSM,允許模型存儲的信息是 LSTM 和 GRU 等傳統(tǒng) RNN 的 N 倍。
2. 狀態(tài)表現(xiàn)力
模型不僅需要擁有足夠大的狀態(tài)空間以在理論上存儲相關(guān)上下文信息,更需要具備表現(xiàn)力強大的狀態(tài)更新函數(shù),以精確編碼和調(diào)用其需要的信息。
早期版本的「線性時不變」SSM 使用簡單的遞歸公式「h_t=Ah_t?1+Bx_t」,其更新規(guī)則在每一個時間步保持恒定。雖然這一機制對音頻等壓縮數(shù)據(jù)的適用性很好,卻難以應(yīng)對語言這類信息速率多變的序列 —— 模型必須選擇性記憶關(guān)鍵信息。以 Mamba 為代表的選擇性 SSM 通過動態(tài)轉(zhuǎn)移矩陣解決了此問題:其轉(zhuǎn)移矩陣隨時間變化且依賴數(shù)據(jù)本身,使得遞歸過程更具有表現(xiàn)力。值得注意的是,這些機制與經(jīng)典 RNN 的門控結(jié)構(gòu)緊密相關(guān)。
這正是現(xiàn)代循環(huán)模型最活躍的研究領(lǐng)域,聚焦理解轉(zhuǎn)移矩陣 A_t 不同參數(shù)化的理論表現(xiàn)力,以及這些參數(shù)化如何影響模型在狀態(tài)空間中的記憶能力。
3. 訓(xùn)練效率
擴展循環(huán)狀態(tài)的容量和表現(xiàn)力很重要,但隨之而來的是模型面臨的關(guān)鍵計算效率瓶頸。Mamba 通過精心設(shè)計遞歸參數(shù)化方式,并采用經(jīng)典的并行掃描算法攻克了這一難題。
當(dāng)前涌現(xiàn)的諸多算法創(chuàng)新都具有以下共性特征:
并行化能力:致力于實現(xiàn)并行化,并在 GPU、TPU 等加速器上達(dá)到實用級效率 —— 通常利用矩陣乘法(matmuls)作為主力運算;
內(nèi)存管理機制:必須精細(xì)控制內(nèi)存使用,尤其是采用狀態(tài)擴展的模型,實際上在主內(nèi)存中無法實體化整個狀態(tài)!Mamba 憑借對 GPU 存儲層級的深度認(rèn)知實現(xiàn)硬性解決,而大多數(shù)替代方案通過重構(gòu)整個計算路徑,在并行訓(xùn)練過程中規(guī)避顯式狀態(tài)計算;
線性特征:模型通常需要保持關(guān)于「x_t」的線性特征,因而一些人稱此類模型為線性循環(huán)模型。線性特征對計算效率以及建模或優(yōu)化能力均產(chǎn)生重要影響(具體分析詳見下文)。
Mamba—— 系統(tǒng)性整合
需特別指出,以下三大技術(shù)要素均非首創(chuàng):
要素 1:線性注意力和早期 SSM 已經(jīng)采用類似的狀態(tài)擴展公式;
要素 2:選擇性機制的設(shè)計靈感來自于 LSTM 和 GRU 等經(jīng)典 RNN 的門控結(jié)構(gòu),兩者緊密相關(guān);
要素 3:并行掃描算法在 S5 和 LRU 等早期 SSM 或線性 RNN 中已使用,線性注意力變體也采用了基于矩陣乘法的并行訓(xùn)練算法。
Mamba 的核心突破在于證明了:當(dāng)將所有這些技術(shù)要素整合在一起時,模型在語言建模任務(wù)中可以實現(xiàn)跨越式性能突破,并達(dá)到比肩 Transformer 的效果。
現(xiàn)代循環(huán)模型
此后,現(xiàn)代循環(huán)模型研究呈現(xiàn)爆發(fā)式增長,各類新模型密集涌現(xiàn)。這些研究雖然動機不同,術(shù)語繁雜,卻共享類似的技術(shù)內(nèi)核:
RWKV、xLSTM 和 Griffin 等模型延續(xù)了 RNN 范式,將狀態(tài)擴展稱為矩陣化狀態(tài)(要素 1),將選擇性機制稱為門控;
線性注意力率先融合了要素 1 和要素 3(并行算法),后續(xù)變體如 GLA、Gated DeltaNet 等引入數(shù)據(jù)依賴型遞歸選擇性機制,并使用基于注意力的術(shù)語(如使用 (K,Q,V) 而不是 (B,C,X))。Mamba-2 可以同時視為 SSM 或線形注意力;
近期的很多模型提出了測試時訓(xùn)練 / 回歸框架,將遞歸更新視為上下文記憶的在線優(yōu)化過程。在這些框架中,狀態(tài)被視為聯(lián)想記憶,并行化通過小批量梯度下降實現(xiàn)。
核心共性在于:幾乎所有模型可納入相同的 SSM 公式 (1),主要差異在于轉(zhuǎn)移矩陣 A_t 的結(jié)構(gòu)設(shè)計(要素 2)以及對應(yīng)的高校訓(xùn)練算法(要素 3)。本文采用狀態(tài)空間模型(或現(xiàn)代循環(huán)模型)來統(tǒng)稱這一大類新興模型 —— 它們精確捕捉了 SISO 線性遞歸和狀態(tài)擴展等核心共性特征。當(dāng)然,考慮到技術(shù)同源性,其他命名體系同樣合理!
盡管該領(lǐng)域的研究加速推進(jìn),并且新模型持續(xù)涌現(xiàn),但本文認(rèn)為當(dāng)前模型仍然呈現(xiàn)高度同質(zhì)化的特征,實證性能也基本相當(dāng)。尤其是相較于二次注意力機制,這些模型之間的相似度遠(yuǎn)高于它們于 Transformer 的差異。
接下來將重點剖析 SSM 和 Transformer 之間的高階權(quán)衡關(guān)系。
狀態(tài)、大腦和數(shù)據(jù)庫
本文認(rèn)為:可以通過觀察不同模型在自回歸狀態(tài)中存儲了什么,以及它們是如何操作這些狀態(tài)的,來更好地理解它們之間的權(quán)衡。這是什么意思呢?
從某種意義上說,每一個自回歸模型 —— 比如像現(xiàn)代大語言模型那樣按從左到右順序生成數(shù)據(jù)的模型 —— 都是一種「狀態(tài)空間模型」,它在內(nèi)存中保存某種狀態(tài),并在每一個時間步中對其進(jìn)行更新(比如 LLM 生成每一個詞之間的過程)。
序列模型的自回歸狀態(tài)
自回歸 Transformer 的核心組件是(因果)自注意力機制,往往通過一種特定的操作來定義:計算序列中每一對元素之間的相互作用。因此,其計算成本隨著序列長度呈二次增長,這也常被視為注意力機制的主要劣勢。
相比之下,由于遞歸公式(1)中每一步的計算耗時是常數(shù),整個序列的處理時間與序列長度成線性關(guān)系,這通常被認(rèn)為是狀態(tài)空間模型的主要優(yōu)勢。
但是,與其去思考這些模型在訓(xùn)練階段的計算成本,本文認(rèn)為更有啟發(fā)性的是去關(guān)注它們在推理階段處理新輸入時會發(fā)生什么。
當(dāng)一個自注意力層接收到一個新 token 時,它需要將這個 token 與序列中此前出現(xiàn)的所有元素進(jìn)行比較。這意味著,它必須緩存整個上下文中每一個先前 token 的表示。每接收一個新輸入,它都必須將其加入緩存,因此緩存的大小會隨著上下文長度線性增長。
相比之下,狀態(tài)空間模型始終將上下文「x_1,? ,x_t」總結(jié)為一個隱藏狀態(tài) h_t(見公式 (1)),這個隱藏狀態(tài)的大小是固定的。這個固定大小的狀態(tài)就是模型與數(shù)據(jù)交互的唯一方式:它持續(xù)接收數(shù)據(jù)流,將其壓縮進(jìn)狀態(tài)中,并依賴這一狀態(tài)來做出決策或生成新輸出。
這里甚至不需要深入探討這些不同模型的具體定義。可以粗略地說,這些模型完全可以從「自回歸狀態(tài)」的第一性原理出發(fā)來定義:
Transformer(自注意力機制)的特點是其狀態(tài)會緩存歷史中的每一個元素,并通過遍歷整個緩存來與新輸入的數(shù)據(jù)進(jìn)行交互。
狀態(tài)空間模型(SSM)的特點則是其狀態(tài)會壓縮整個歷史信息,并以在線流式的方式與新輸入數(shù)據(jù)進(jìn)行交互。
粗略的類比
盡管狀態(tài)空間模型(SSM)常被視為更高效但稍遜于 Transformer 的變體,事情其實并沒有那么簡單。
即使不考慮計算效率,這兩類模型在歸納偏置(或建模能力)上也存在不同的權(quán)衡。考慮到兩者處理數(shù)據(jù)的方式差異,本文做了一個粗略但貼切的類比來說明這一點。
Transformer 更像是數(shù)據(jù)庫:它們把每一個新的觀測都當(dāng)作重要的信息存檔,以備將來查用。相比之下,狀態(tài)空間模型(SSM)更像是大腦:擁有有限大小的記憶,一直處于工作狀態(tài),實時處理新輸入并產(chǎn)生輸出。
這個類比雖然有些淺顯,但在直觀上確實有助于解釋一些經(jīng)驗上觀察到的行為模式。例如,SSM 無法在只讀一遍的情況下記住整個電話簿并完整背誦出來,或者從記憶中準(zhǔn)確回憶任意一個人的電話號碼。當(dāng)然,人類也做不到這一點 —— 我們在精確記憶和檢索方面表現(xiàn)得非常差 —— 但這似乎并不妨礙智能的產(chǎn)生!
另一方面,Transformer 在上下文長度上有一個根本的硬性限制(當(dāng)緩存大小被超過時),而像 SSM 這樣的遞歸模型在理論上可以像人類一樣,保有一段無限長(但模糊)的過去記憶。
一個更有趣的經(jīng)驗發(fā)現(xiàn) —— 也許可以從上述類比中預(yù)測到 —— 將這兩種信息處理方式結(jié)合起來,可能會表現(xiàn)得更強大!就像人類的智能能夠通過使用筆記本和外部參考資料得到增強一樣,當(dāng)語言模型通過一種簡單的交替策略將 SSM 與注意力層結(jié)合使用時,其能力也得到了提升。
更令人感興趣的是,經(jīng)過多個研究團隊的獨立驗證(包括 H3、Jamba、Zamba、Samba 以及隨后涌現(xiàn)出的許多模型),最優(yōu)的 SSM 與注意力層的比例大致在 3:1 到 10:1 之間。如果你認(rèn)同這樣一個粗略的類比(即人類智能主要依賴于大腦,并通過輕量訪問外部數(shù)據(jù)庫得到增強),那么這個比例似乎也在某種程度上印證了這一觀點!
如今,這類混合模型已被大規(guī)模擴展到非常龐大的規(guī)模(例如采用 MoE 架構(gòu)的總參數(shù)量達(dá)到 5600 億),并由一些頂級實驗室推出,如 NVIDIA 的 Nemotron-H 和騰訊的 T1/TurboS,都已在多個任務(wù)上取得了最先進(jìn)的性能。
Is Attention All You Need?
所以,「Attention is all you need」,對吧?如今普遍存在一種看法:Transforme 是終極架構(gòu),能夠從原始數(shù)據(jù)中學(xué)到任何東西,只要數(shù)據(jù)足夠多、計算資源充足,唯一的瓶頸就是算力。
但事實并非如此簡單。Attention 確實非常出色,已經(jīng)成為幾乎所有模態(tài)的核心骨干,從最初在語言上的應(yīng)用拓展到了視覺、音頻,甚至更多領(lǐng)域。不過,這其中還有更多細(xì)節(jié)值得探討。
本文想提出的觀點是:要真正有效地使用 Transformer,數(shù)據(jù)必須經(jīng)過相當(dāng)程度的預(yù)處理。為了支持這個觀點,可以先來看看 Transformer 在實際中的使用方式。
在幾乎所有真實的應(yīng)用流程中,原始數(shù)據(jù)在輸入 Transformer 之前都會先通過某種編碼器進(jìn)行處理,例如:
在視覺任務(wù)中,無論是分類還是生成,都需要一個「切塊」(patchification)步驟;
在語言建模中,需要先進(jìn)行「分詞」(tokenization)。
這聽起來也許很直觀:畢竟注意力機制的計算復(fù)雜度是二次的,我們會希望盡量簡化輸入數(shù)據(jù)(比如縮短序列長度)。
但本文想說的并不僅僅是計算效率的問題,而是一個更強的觀點:Transformer 在建模能力上本身就存在一定的局限性。
我們應(yīng)該擺脫 tokenization 嗎?
Tokenization 是所有語言建模流程中一個重要步驟,最常見的是 BPE 算法,本文中 tokenization 與 BPE 可互換使用。
但這個過程帶來很多問題,如詢問大模型「strawberry 里有幾個字母 r?」,它們經(jīng)常回答錯誤,這些都暴露了分詞機制在理解語言細(xì)節(jié)上的局限。
那我們?yōu)槭裁催€要使用 tokenization 呢?
從大量觀點來看,幾乎所有人都同意:tokenizer 既笨拙又丑陋,但它又必然存在。
在實際應(yīng)用中,tokenization 大約可以將序列長度縮短一個數(shù)量級左右,這顯著提升了語言模型的運算效率。盡管存在一些極端案例,但大多數(shù)情況下,它們確實能用。
但本文恰恰相反,認(rèn)為我們應(yīng)該徹底擺脫 tokenization,這不僅僅是出于實際原因,也是為了美觀和無形的考慮。
除了可以修復(fù)邊緣案例(如 strawberry 這個單詞里有幾個字母 r),移除 tokenization 更符合深度學(xué)習(xí)的本質(zhì)。
深度學(xué)習(xí)一直都致力于用強大的端到端神經(jīng)網(wǎng)絡(luò)取代手工設(shè)計的特征工程,這些神經(jīng)網(wǎng)絡(luò)可以自動從數(shù)據(jù)中學(xué)習(xí)模式。從 CNN 取代計算機視覺領(lǐng)域中人工設(shè)計的邊緣檢測器,到 Transformers 取代自然語言處理領(lǐng)域的語言特征,人工智能的重大進(jìn)步總是伴隨著更少的數(shù)據(jù)處理和更多的自動學(xué)習(xí)(正如《苦澀的教訓(xùn)》所倡導(dǎo)的那樣)。
用端到端模型替代 tokenization 將帶來深遠(yuǎn)的影響,具體體現(xiàn)在以下幾個方面:
擴展律(scaling laws):從原始數(shù)據(jù)中學(xué)習(xí)更優(yōu)的模式,總能帶來更強大的模型能力;
多語言與多模態(tài)處理:對某些語言和其他類型的序列數(shù)據(jù)而言,tokenization 一直是一個出了名的難題,甚至根本無法適配;
推理能力:模型可以從數(shù)據(jù)中學(xué)習(xí)到更具語義的模式,并在更高抽象層面上進(jìn)行推理。
假如沒有 tokenization,會發(fā)生什么?
LLM 時代,幾乎沒有幾篇論文真正認(rèn)真思考或嘗試解決「去除 tokenizer」這個問題。甚至很難找到一套可靠的基準(zhǔn),用來評估無 tokenizer 模型的表現(xiàn)。
假如沒有 tokenization,會發(fā)生什么?
由上圖,我們可以得出一些讓人頗感意外的結(jié)論。
但現(xiàn)在我們只做一件事:保持模型和數(shù)據(jù)不變,僅僅取消 tokenization(直接用字節(jié)輸入),結(jié)果是 ——Transformer 用上了更多的計算資源,表現(xiàn)卻明顯落后于 SSM。
首先要指出的是:在 FLOPs 匹配的前提下,SSM 的表現(xiàn)遠(yuǎn)優(yōu)于 Transformer。
這一點對一些人來說也許并不意外,因為在字節(jié)級建模中,輸入序列遠(yuǎn)長于 BPE token 序列,而 Transformer 會因其對序列長度呈二次復(fù)雜度的計算瓶頸而受到影響。
然而,Transformer 的弱點并不僅僅在于效率問題,更在于其建模能力的局限。
值得注意的是,即使讓 Transformer 使用遠(yuǎn)多于 SSM 的計算資源(以數(shù)據(jù)量匹配,而非計算量匹配),SSM 依然始終領(lǐng)先。
作為對比:如果用完全相同的數(shù)據(jù)對這兩類模型進(jìn)行對比,但對數(shù)據(jù)做了 tokenization,那么兩者的困惑度(perplexity)曲線會基本相似(甚至 Transformer 會略優(yōu)),并且它們的 FLOP 也會差不多。
但如果在保持模型和數(shù)據(jù)不變的前提下,只是將輸入不進(jìn)行 tokenize,Transformer 雖然使用了更多的計算量,其性能反而相對 SSM 有明顯下降。
最初的 Mamba 論文顯示,在 DNA 語言建模任務(wù)中,Mamba 在無需特別調(diào)優(yōu)的情況下,其擴展能力明顯優(yōu)于 Transformer。
這或許給我們一點啟示:tokenization 本質(zhì)上是為 Transformer 缺陷設(shè)計的補丁,而 SSM 類模型在原生處理低語義密度數(shù)據(jù)時展現(xiàn)出更根本的建模優(yōu)勢,這可能重塑我們對語言模型本質(zhì)能力的認(rèn)知框架。
要理解這里發(fā)生了什么,一個有用的思維模型是回到自回歸狀態(tài)。簡而言之,由于 Transformer 顯式緩存了所有先前的 token,它就帶有一種歸納偏置:傾向于關(guān)注每一個具體的 token。或者更簡潔地說:軟注意力的歸納偏置,其實是硬注意力。
在處理語言時,我們通常關(guān)注的是詞(word)或子詞(如詞根、前綴 / 后綴)這樣的單位,它們具有明確的語義含義。
但反過來看,如果這種假設(shè)不成立 —— 比如閱讀時我們很少會關(guān)注某個單獨的字符,那么注意力機制的表現(xiàn)就會下降。
更有趣的是,很多其他類型的數(shù)據(jù)處于這兩者之間的模糊地帶。
比如圖像中的 patch 在某些情況下能捕捉到顯著特征,有時是有意義的;但在其他時候,它們可能毫無用處,或者語義不完整。
一個假想
當(dāng)序列中存在噪聲時會發(fā)生什么?
眾所周知,LLM 的訓(xùn)練數(shù)據(jù)通常需要大量的預(yù)處理、篩選和清洗,但現(xiàn)實世界中的數(shù)據(jù)(尤其是多模態(tài)數(shù)據(jù))并非如此。人類也能在大量噪聲中學(xué)習(xí)得很好!
那么,在一個非常簡單的情形下,如果我們在序列中插入一些不包含任何信息的填充 token,會發(fā)生什么呢?
圖中揭示了標(biāo)準(zhǔn)注意力機制的又一個失敗模式:計算不應(yīng)該按 k^2 擴展,推理時的內(nèi)存消耗更不應(yīng)該這樣擴張,緩存這些毫無意義的噪聲 token 是完全沒有意義的。?
相比之下,SSM 做得更好:即使冗余因子增加,模型的內(nèi)存不會增加。
但這也并未完全解決問題,因為任何標(biāo)準(zhǔn)架構(gòu)的計算量仍然會隨著 token 的增加而增加。所以說,所有當(dāng)前的大模型在面對噪聲或冗余時都存在性能損耗的問題。
所以,理想的模型體系架構(gòu)應(yīng)該在不(實質(zhì)上)增加計算或內(nèi)存使用的情況下,能夠處理這種帶有填充序列的任務(wù),而不是盲目地處理所有 token。?
更一般地,假設(shè)我們有一個數(shù)據(jù)集的兩個副本,其中一個包含很多額外的噪聲,但總體而言,它們具有基本相同的有用信息。我們應(yīng)該預(yù)期正確的架構(gòu)在這兩個數(shù)據(jù)集上的表現(xiàn)基本相同。
這就引出一個問題:Is attention all you need? 答案是注意力機制對處于正確抽象層級的預(yù)壓縮數(shù)據(jù)最為有效。
當(dāng)然,這種說法是對實際情況的過度簡化,作者表示也不知道該如何正式定義抽象層級這種概念。但作者相信,在某種模糊的意義上,這確實是對的。?
狀態(tài)空間模型與 Transformer 之間的權(quán)衡
狀態(tài)空間模型
先說優(yōu)勢,SSM 是一種天然具備狀態(tài)記憶的模型,擅長高效、交互式、在線處理。缺點是缺乏精細(xì)的回憶(recall)和檢索能力。?
這兩者好比同一枚硬幣的兩面,根源都在于狀態(tài)壓縮機制的本質(zhì)特性。
那么壓縮是否其實是智能的根本特征之一?是否有可能,正是因為將信息強行壓縮進(jìn)一個更小的狀態(tài)空間,才迫使模型去學(xué)習(xí)更有用的模式和抽象?
雖然在很多文獻(xiàn)中,壓縮狀態(tài)常被視為一種缺陷,但這種觀點的產(chǎn)生可能是因為壓縮帶來的弱點很容易被量化衡量,而壓縮所帶來的那些更微妙的、定性的正面影響卻很難被準(zhǔn)確評估。
無論如何,現(xiàn)在肯定有很多有趣的應(yīng)用,SSM 看起來是非常合適的工具。
Transformer
Transformer 的表現(xiàn)非常出色,事實上,在那些需要關(guān)注上下文中單個 token 的任務(wù)中,Transformer 幾乎是唯一能夠勝任的工具。
Transformer 的優(yōu)勢是擁有完美的召回率,并能在其上下文中對單個 token 進(jìn)行細(xì)粒度的操作。
那么它的缺點呢?大家都知道 Transformer 的主要弱點是其二次方復(fù)雜度。
并非如此。這篇文章的主題是要闡明 Transformer 確實存在歸納偏差,這使其在建模能力方面存在弱點,而不僅僅是效率方面。與 SSM 一樣,Transformer 的高層優(yōu)勢和劣勢是同一枚硬幣的兩面,都是其自回歸狀態(tài)結(jié)構(gòu)的結(jié)果:token 緩存會維持給定輸入分辨率的粒度。
Transformer 弱點是受制于賦予它們的 token。
換句話說,它們對數(shù)據(jù)的分辨率和語義內(nèi)容更加敏感。Transformer 的特點在于其上下文緩存,它為序列中的每個元素存儲單獨的表示,這意味著每個元素最好都有用。
最后,讓我們來談?wù)劗?dāng)前人工智能發(fā)展浪潮的主要驅(qū)動力之一:擴展律 Scaling Laws,或者說,在模型上投入更多計算資源會持續(xù)帶來更多能力的現(xiàn)象。
這些定律總是以 FLOP(浮點運算次數(shù))為 x 軸,以某種性能指標(biāo)為 y 軸來繪制,其理念是,這條線的斜率衡量「計算能力轉(zhuǎn)化為能力的速率」。事實上,本文認(rèn)為有一種流行的觀點認(rèn)為 Transformer 只是一種以最佳方式執(zhí)行這種轉(zhuǎn)換的工具。
這很好地描述了架構(gòu)研究的目標(biāo),本文只是在尋找一個能夠以最佳方式執(zhí)行這種轉(zhuǎn)換的黑匣子。從這個角度來看,只有一個核心問題:
模型是否合理地利用了它的計算能力?
換句話說,本文希望每個 FLOP 都有效。希望讀完這篇文章后,大家能夠清楚地認(rèn)識到 Transformer 遠(yuǎn)非最佳方案(至少作者已經(jīng)說服了自己!)。
題外話:這真的重要嗎?
盡管作者被譽為 Transformer 替代方案方向的領(lǐng)導(dǎo)者,但他同時也認(rèn)為 Transformer 非常棒,注意力機制確實是建模的基本原語。但作者也認(rèn)為,Transformer 本身顯然不是最終的解決方案。我們還有很多工作要做。
博客鏈接:https://goombalab.github.io/blog/2025/tradeoffs/#a-coarse-analogy
注意力 新浪科技公眾號“掌”握科技鮮聞 (微信搜索techsina或掃描左側(cè)二維碼關(guān)注)
相關(guān)新聞相關(guān)文章
- 轉(zhuǎn)載自bilibili TW-Cheerleading2025-07-10
- 任九開獎北京時間7月2日,足彩第25094期任九開獎結(jié)果揭曉。本期任九開出281注,單注獎金35396元。本期任九投注總額為15,541,274元。彩果方面,本期賽事中的世俱杯、瑞超、挪超和金杯賽皆有2025-07-10
- 北京時間7月3日,由沙特資助的LIV高爾夫聯(lián)賽明年在美國本土的首場比賽將推遲至PGA錦標(biāo)賽前一周舉行。《體育商業(yè)周刊》獲得了聯(lián)賽的日程安排,該雜志表示雖然日程尚未最終確定,但很可能是最終版本。根據(jù)雜志2025-07-10
爆25億彩票巨獎?wù)Q生 “匿名兌獎”新規(guī)生效引熱議
網(wǎng)絡(luò)配圖近日,美國超級百萬(Mega Millions)爆出3.48億美元(約合人民幣25億元)的彩票巨獎,大獎?wù)Q生于弗吉尼亞州(Virginia),這也是該州彩票歷史上的最大獎!值得一提的是,弗吉尼2025-07-10- 虎撲07月09日訊 根據(jù)美國記者Shams的消息,雷霆球員亞歷山大將成為《NBA?2K26》的封面人物。亞歷山大成為游戲歷史上首位登上封面的加拿大球員。在此前,據(jù) ESPN 透露,雷霆與亞歷山大達(dá)成一2025-07-10
[新浪彩票]足彩25094期盈虧指數(shù):巴黎曼城皆可膽
盈虧指數(shù)盈虧指數(shù):莊家盈虧動態(tài)盡在掌握從莊家不輸錢說起,通過發(fā)掘市場投注分布與莊家預(yù)先設(shè)置的概率之間的差異,觀察每場比賽莊家的盈虧情況,并且量化成指數(shù)形式。負(fù)數(shù)代表莊家盈利;正數(shù)代表莊家虧損。通常說來2025-07-10
最新評論