馬斯克AI女友直播「一秒變身」,Karpathy看完立刻投錢
時(shí)間:2025-07-20 16:44:16 出處:汽車音響閱讀(143)
新智元報(bào)道
編輯:定慧
【新智元導(dǎo)讀】世界首個(gè)實(shí)時(shí)AI擴(kuò)散視頻模型炸場,克A看完Karpathy親自站臺(tái),友直顛覆AI視頻交互,播秒變身0延遲+無限時(shí)長,立刻每秒24幀不卡頓,投錢MirageLSD首次實(shí)現(xiàn)AI直播級(jí)生成。克A看完
剛剛,友直世界上首個(gè)支持直播推流的播秒變身「實(shí)時(shí)」擴(kuò)散AI視頻誕生。
大神Karpathy親自站臺(tái)宣傳這個(gè)最新技術(shù)MirageLSD。立刻
最火的投錢「馬斯克AI女友」可以直接秒變哥特風(fēng)格、卡哇伊風(fēng)格——注意是克A看完實(shí)時(shí),而不是友直后期生成。
這就是播秒變身DecartAI最新推出的MirageLSD:首個(gè)支持直播推流的實(shí)時(shí)擴(kuò)散AI視頻模型。
大神Karpathy說他是立刻這個(gè)項(xiàng)目的天使投資人,看到團(tuán)隊(duì)能取得突破非常激動(dòng)。投錢
Karpathy還簡單講解了下什么是「實(shí)時(shí)擴(kuò)散AI視頻模型」。
比如我們熟悉的濾鏡,就是一種實(shí)時(shí)視頻效果。
簡單的濾鏡效果雖然是「實(shí)時(shí)」的,但也只能進(jìn)行基本的重新著色和樣式設(shè)置,本質(zhì)上濾鏡是「無法理解」視頻內(nèi)容的。
現(xiàn)在AI生成視頻常用的擴(kuò)散模型,比如谷歌的Veo3,已經(jīng)很神奇了,它是能夠「理解」想要生成的視頻內(nèi)容的。
但是唯一的缺點(diǎn)是生成過程比較慢需要好幾分鐘,效果好的視頻需要時(shí)間更多。
MirageLSD則是一種完全不同的模型,它不是簡單的疊加濾鏡,而是理解真實(shí)視頻后同步生成無限想象力的AI視頻。
比如可以給你的狗穿上蜘蛛俠的衣服,或者將打斗場面直接變成星球大戰(zhàn)。
也可以把廚房的風(fēng)格變換為卡通,或者直接將手里的筆變成光劍。
這些畫面都可以任意通過提示進(jìn)行操控。
這給未來的視頻娛樂、直播互動(dòng)帶來了豐富的想象力。
Karpathy本人就想了幾個(gè)點(diǎn)子:
科幻片導(dǎo)演現(xiàn)場拍攝時(shí),就可以直接測試成片的效果;
實(shí)時(shí)虛擬替換不同風(fēng)格、不同背景下的衣服,比如直接穿著婚紗出現(xiàn)在禮堂;
例如情侶間通話時(shí),將對(duì)話直接卡通化;
游戲畫面直接切換,比如直接將黑神話悟空切換到老頭環(huán)的交界地。
DecartAI給出幾個(gè)官方演示視頻,可以感受下這個(gè)「魔法般」的效果。
由于MirageLSD是實(shí)時(shí)運(yùn)行,可以將游戲畫面實(shí)時(shí)設(shè)置為你最喜歡的場景。
另外一個(gè)最有趣的應(yīng)用就是,不用再擔(dān)心直播設(shè)備不好,你可以直接將直播畫面轉(zhuǎn)化為全新場景,即使你的設(shè)備再差,也可以進(jìn)行「完美直播」。
同時(shí),Decart還提供了一個(gè)官方的體驗(yàn)網(wǎng)站,不過現(xiàn)在估計(jì)熱度太高了,服務(wù)器一直無法連接。
畢竟是Karpathy親自宣傳,粉絲太多啦!
本周上線的是網(wǎng)頁版,下周將上線iOS和安卓版本。
AI實(shí)時(shí)想象畫面
MirageLSD是首個(gè)實(shí)現(xiàn)無限、實(shí)時(shí)視頻生成且零延遲的系統(tǒng)。
它基于Decart自研的模型Live Stream Diffusion(LSD),能夠在保持時(shí)間連貫性的同時(shí)逐幀生成視頻。
與之前的方法不同,LSD支持完全交互式的視頻合成——在視頻生成的同時(shí)實(shí)現(xiàn)持續(xù)提示、變換和編輯。
當(dāng)前的視頻模型在生成超過20-30秒的視頻時(shí),會(huì)因誤差累積而出現(xiàn)嚴(yán)重質(zhì)量下降。
它們往往需要數(shù)分鐘的處理時(shí)間才能生成短短幾秒鐘的輸出內(nèi)容。
即便是當(dāng)下接近實(shí)時(shí)性能的最快系統(tǒng),通常也只能分塊生成視頻,這會(huì)引入不可避免的延遲,從而無法滿足交互式使用的需求。
誤差積累導(dǎo)致質(zhì)量迅速下降,從而有效限制了先前自回歸視頻模型的輸出長度。
為了實(shí)時(shí)生成視頻,LSD必須以「因果方式」運(yùn)行——每一幀的生成僅基于之前已有的幀。
這種自回歸結(jié)構(gòu)雖然保證了連續(xù)性,卻也引入了一個(gè)嚴(yán)重缺陷:誤差累積。
每一幀都會(huì)繼承前一幀的瑕疵,微小的誤差不斷積累,導(dǎo)致質(zhì)量迅速下降,直至幀內(nèi)容變得不連貫。
以往的視頻模型要么生成固定且較短長度的視頻,要么采用自回歸生成,但會(huì)損失質(zhì)量,因此僅限于生成較短的輸出。
想要實(shí)時(shí)生成,LSD需要解決兩個(gè)此前在單一系統(tǒng)中尚未被共同解決的挑戰(zhàn)。
無限生成
MirageLSD是首個(gè)能夠生成無限長度視頻的視頻生成模型。
模型的自回歸特性使其容易累積誤差,從而限制了輸出的長度。為了實(shí)現(xiàn)無限自回歸生成:
基于DiffusionForcing技術(shù)進(jìn)行構(gòu)建,該技術(shù)支持逐幀去噪。
引入了歷史增強(qiáng)技術(shù),其中模型在經(jīng)過損壞的歷史幀輸入上進(jìn)行微調(diào)。這使其能夠預(yù)測并修正輸入中的偽影,從而增強(qiáng)其對(duì)自回歸生成中常見漂移的魯棒性。
這些特點(diǎn)使LSD成為首個(gè)能夠無限生成視頻。
實(shí)現(xiàn)「實(shí)時(shí)」性能
實(shí)時(shí)生成要求每一幀的生成時(shí)間不超過40毫秒,以避免被肉眼察覺。通過以下方式實(shí)現(xiàn)這一目標(biāo):
設(shè)計(jì)自定義的CUDA超大內(nèi)核,以最大限度地減少開銷并提高吞吐量。
在快捷蒸餾和模型剪枝的基礎(chǔ)上,減少了每幀所需的計(jì)算量。
優(yōu)化模型架構(gòu)以與GPU硬件對(duì)齊,實(shí)現(xiàn)最高效率。
這些技術(shù)共同作用,使響應(yīng)速度比之前的模型提高了16倍,從而實(shí)現(xiàn)了每秒24幀的實(shí)時(shí)視頻生成。
AI視頻仍然缺少交互性
像MovieGen、WAN和Veo這樣的定長模型可以生成高質(zhì)量的視頻片段,但它們的非因果設(shè)計(jì)和全片段推理會(huì)引入延遲,并且無法實(shí)現(xiàn)實(shí)時(shí)交互或超出預(yù)定義長度的擴(kuò)展。
這意味著AI視頻缺少交互性。
諸如CausVid、LTX和Seeweed-APT之類的自回歸模型通過將每個(gè)塊的生成依賴于先前的輸出來生成更長的序列。
雖然這種方法提高了可擴(kuò)展性,但分塊推理仍然限制了響應(yīng)速度,并存在誤差累積的問題,限制了生成長度,排除了真正的交互可能性。
可控生成方法,包括ControlNet和基于LoRA的適配器,能夠?qū)崿F(xiàn)目標(biāo)編輯和風(fēng)格遷移,但需要離線微調(diào),不適合實(shí)時(shí)逐幀提示。
Decart之前的系統(tǒng)Oasis展示了在受限領(lǐng)域內(nèi)首個(gè)實(shí)時(shí)因果生成。
實(shí)時(shí)擴(kuò)散模型MirageLSD將其擴(kuò)展到開放領(lǐng)域、可提示的視頻,實(shí)現(xiàn)零延遲、實(shí)時(shí)速度和無限穩(wěn)定性——這是之前的工作未能同時(shí)實(shí)現(xiàn)的組合。
MirageLSD可以將現(xiàn)實(shí)世界中的實(shí)物轉(zhuǎn)化為流媒體中的神話物品——將棍棒打斗變成光劍表演。
擴(kuò)散模型通過逐步去除隨機(jī)噪聲來生成圖像或視頻。
在視頻生成過程中,這通常意味著一次性生成固定長度的片段,這種方法有助于保持時(shí)間一致性,但會(huì)引入延遲。
一些系統(tǒng)試圖通過按順序生成幀塊來提高靈活性,這種技術(shù)被稱為自回歸生成。
然而,每個(gè)幀塊仍需完全生成后,模型才能響應(yīng)新的輸入,從而限制了交互性和實(shí)時(shí)應(yīng)用。
LSD采用了一種不同的方法。
它一次生成一幀畫面,使用因果關(guān)系的自回歸結(jié)構(gòu),其中每一幀都依賴于先前生成的幀和用戶提示。
這種方式實(shí)現(xiàn)了即時(shí)反饋、零延遲交互,并且視頻生成可以持續(xù)進(jìn)行而無需預(yù)定義終點(diǎn)。
這種因果反饋循環(huán)使LSD能夠保持時(shí)間一致性,持續(xù)適應(yīng)運(yùn)動(dòng)和內(nèi)容,并在實(shí)時(shí)響應(yīng)用戶提示的同時(shí)生成無限視頻序列。
此外,它還能讓LSD即時(shí)響應(yīng)輸入內(nèi)容——無論是文本提示還是視頻內(nèi)容的變化——且實(shí)現(xiàn)零延遲。
這使得實(shí)時(shí)編輯和轉(zhuǎn)換成為可能。
為了實(shí)現(xiàn)這一點(diǎn),Decart使用了擴(kuò)散強(qiáng)制(Diffusion Forcing)——一種預(yù)訓(xùn)練方法,其中訓(xùn)練視頻的每一幀都獨(dú)立添加噪聲。
這教會(huì)了模型在不依賴完整視頻上下文的情況下對(duì)單幀進(jìn)行去噪,從而實(shí)現(xiàn)了逐幀生成。
打開LSD的「發(fā)動(dòng)機(jī)艙蓋」
LSD的神奇之處在于:能夠在嚴(yán)格的延遲預(yù)算(低于40毫秒)內(nèi)獨(dú)立生成每一幀,以支持持續(xù)的24FPS生成。
這在模型設(shè)計(jì)和系統(tǒng)執(zhí)行方面都帶來了重大挑戰(zhàn)。
首先,高質(zhì)量的擴(kuò)散模型在計(jì)算上非常密集。
它們通常需要大量的參數(shù)數(shù)量,以及每幀需要多次迭代的去噪步驟。
每一步都需要通過模型進(jìn)行一次完整的前向傳播,從而導(dǎo)致每幀產(chǎn)生大量的浮點(diǎn)運(yùn)算(FLOPs)。
其次,與離線生成流水線不同,LSD必須滿足嚴(yán)格的每幀延遲約束。
這些約束與現(xiàn)代GPU的架構(gòu)方式根本相悖:它們優(yōu)先考慮高吞吐量和大規(guī)模批處理執(zhí)行,而非低延遲的單樣本推理。
挑戰(zhàn)包括內(nèi)核啟動(dòng)開銷、在連續(xù)層之間重疊計(jì)算的機(jī)會(huì)有限,以及對(duì)內(nèi)存?zhèn)鬏斞舆t的敏感性增加,尤其是在多設(shè)備設(shè)置中。
為了解決這些問題,Decart采用了一個(gè)三管齊下的優(yōu)化策略:
Hopper優(yōu)化的超大內(nèi)核:通過利用類似于MegaKernels的若干新興技術(shù),針對(duì)NVIDIA Hopper GPU架構(gòu)優(yōu)化了模型執(zhí)行,以在小批量尺寸限制下最小化每層模型的延遲。進(jìn)一步在這些內(nèi)核中集成了GPU-GPU通信,以保證設(shè)備之間無縫通信,并通過計(jì)算操作進(jìn)行掩蔽。
架構(gòu)感知剪枝:將模型架構(gòu)與系統(tǒng)級(jí)優(yōu)化緊密集成,可以在每次模型執(zhí)行時(shí)減少所需的FLOPs數(shù)量,同時(shí)通過高級(jí)技術(shù)更好地利用張量核心。這些技術(shù)將參數(shù)大小調(diào)整為特定GPU常量,并使用專用硬件支持進(jìn)一步挖掘模型權(quán)重中的稀疏性。這些剪枝方法旨在根據(jù)底層GPU架構(gòu)調(diào)整模型架構(gòu),以最大化GPU的利用率,同時(shí)通過微調(diào)模型使其對(duì)移除各種參數(shù)具有魯棒性,從而減少整體所需的FLOPs數(shù)量。
快捷蒸餾:為了減少生成所需的擴(kuò)散步驟數(shù)量,應(yīng)用了快捷蒸餾方法,訓(xùn)練較小的模型以匹配較大教師模型的去噪軌跡。該方法顯著減少了每幀所需的模型評(píng)估次數(shù),同時(shí)保持了輸出質(zhì)量與時(shí)間一致性。更重要的是,它避免了在長序列中引入新的偽影或漂移。
這些技術(shù)共同使LSD能夠?qū)⒏弑U嬉曨l擴(kuò)散的延遲從每個(gè)片段幾秒降低到每幀不到40毫秒,從而實(shí)現(xiàn)真正實(shí)時(shí)、可交互的生成。
參考資料:
https://about.decart.ai/publications/mirage
https://x.com/karpathy/status/1945979830740435186
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.