蘋果發(fā)布2025基礎(chǔ)模型報告,揭開Apple Intelligence技術(shù)全貌
時間:2025-07-20 17:01:13 出處:綜合閱讀(143)
蘋果公司近日正式發(fā)布了《Apple Intelligence Foundation Language Models Tech Report 2025》技術(shù)報告,蘋果這是發(fā)布繼去年首次公開其 AI 基礎(chǔ)模型技術(shù)細節(jié)后的重要更新。而且,基礎(chǔ)揭開e技就在不久前 Meta 剛剛以數(shù)千萬美元薪酬挖走了蘋果基礎(chǔ)模型團隊負責(zé)人龐若鳴(Ruoming Pang),模型貌這份技術(shù)報告很可能是報告龐若鳴在蘋果生涯的最后一份重要成果。
龐若鳴本人也在社交媒體上對這份報告進行了介紹,術(shù)全并正式將團隊的蘋果重任交接給了 Zhifeng Chen。
圖丨相關(guān)推文(來源:X)
報告詳細介紹了一套雙軌并行的發(fā)布模型策略。第一款是基礎(chǔ)揭開e技一個約 30 億參數(shù)的端上模型,專為在 iPhone、模型貌iPad 和 Mac 等蘋果設(shè)備上高效運行而設(shè)計。報告該模型經(jīng)過深度優(yōu)化,術(shù)全以充分利用蘋果自研芯片的蘋果性能。另一款則是發(fā)布在蘋果私有云計算上運行的可擴展服務(wù)器模型,用于處理更復(fù)雜的基礎(chǔ)揭開e技用戶請求。這種“端云協(xié)同”的架構(gòu)旨在平衡性能、效率和隱私,簡單的任務(wù)在本地設(shè)備上完成,復(fù)雜任務(wù)則交由具備同等級別隱私保護的云端服務(wù)器處理。
圖丨蘋果基礎(chǔ)模型的框架概覽(來源:Apple)
為了提升端上模型的運行效率,蘋果的工程師們引入了一項名為“鍵值緩存共享”(KV Cache Sharing)的創(chuàng)新架構(gòu)。具體而言,他們將模型劃分為兩個區(qū)塊,其中一個區(qū)塊(占模型層數(shù)的 37.5%)直接共享另一區(qū)塊(占 62.5%)生成的鍵值緩存,從而將緩存所需的內(nèi)存減少了 37.5%,并顯著縮短了生成第一個詞元 token 的響應(yīng)時間。
對于服務(wù)器端模型,蘋果則開發(fā)了一種名為“并行軌道混合專家”(Parallel-Track Mixture-of-Experts, PT-MoE)的全新 Transformer 架構(gòu)。該架構(gòu)將一個大型模型分解為多個更小的、被稱為“軌道”(Track)的并行處理單元。每個軌道獨立處理信息,僅在特定節(jié)點進行同步,從而大幅減少了傳統(tǒng)大型模型中常見的通信瓶頸,提高了訓(xùn)練和推理的效率。此外,通過在每個軌道內(nèi)部署混合專家(MoE)層,該模型能夠更高效地擴展,以低延遲處理復(fù)雜任務(wù),同時不犧牲模型質(zhì)量。
圖丨PT-MoE 架構(gòu)示意圖(來源:Apple)
在賦予模型理解圖像的多模態(tài)能力方面,報告也披露了其視覺編碼器的技術(shù)細節(jié)。服務(wù)器和端上模型分別采用了 ViT-g 和更高效的 ViTDet-L 作為視覺主干網(wǎng)絡(luò)。值得一提的是,端上模型還采用了一種新穎的“寄存器-窗口”(Register-Window)機制,使其能夠同時有效捕捉圖像的全局上下文信息和局部精細細節(jié)。
在訓(xùn)練數(shù)據(jù)方面,蘋果保持了其一貫強調(diào)隱私保護的風(fēng)格,在報告中明確了其數(shù)據(jù)來源和隱私原則。訓(xùn)練數(shù)據(jù)主要來自三方面:從出版商處授權(quán)的數(shù)據(jù)、由蘋果網(wǎng)頁爬蟲 Applebot 抓取的公開網(wǎng)絡(luò)信息,以及高質(zhì)量的合成數(shù)據(jù)。蘋果特別強調(diào),在訓(xùn)練過程中絕不使用用戶的私人個人數(shù)據(jù)或用戶交互信息。
同時,公司遵循 robots.txt 協(xié)議,允許網(wǎng)站發(fā)布者選擇不讓其內(nèi)容被用于模型訓(xùn)練,從源頭上保障了內(nèi)容所有者的權(quán)利和用戶隱私。報告顯示,蘋果處理了超過 100 億對高質(zhì)量的圖文對和 50 億對合成圖像標(biāo)題數(shù)據(jù),并通過先進的流水線進行過濾和提純,以確保訓(xùn)練數(shù)據(jù)的質(zhì)量。
圖丨蘋果的分布式異步強化學(xué)習(xí)基礎(chǔ)設(shè)施(來源:Apple)
為了讓這些模型能在實際設(shè)備上高效運行,蘋果采用了積極的優(yōu)化策略。端上模型通過“量化感知訓(xùn)練”(Quantization-Aware Training, QAT)技術(shù),將模型權(quán)重壓縮至每權(quán)重 2 比特。服務(wù)器模型則利用了一種名為“自適應(yīng)可擴展紋理壓縮”(Adaptive Scalable Texture Compression, ASTC)的技術(shù),該技術(shù)利用了蘋果 GPU 中已有的硬件解壓模塊,能夠以幾乎零計算成本的方式對模型權(quán)重進行解壓,最終將模型壓縮至每權(quán)重約 3.56 比特。對于壓縮過程中可能出現(xiàn)的性能損失,蘋果則通過訓(xùn)練低秩適配器(Low-Rank Adaptation, LoRA)來進行補償和恢復(fù)。
性能評估的結(jié)果顯示,在 MMLU 等標(biāo)準(zhǔn)測試中,蘋果的端上模型表現(xiàn)優(yōu)于或持平于 Qwen-2.5-3B、Gemma-3-4B 等同規(guī)模的開源模型。
(來源:Apple)
服務(wù)器模型則在與 LLaMA 4 Scout 的對比中表現(xiàn)出色,但與 Qwen-3-235B 和 GPT-4o 等更大規(guī)模的模型相比仍有差距。在與人類評分員進行的并排比較中,蘋果的模型在多個語言區(qū)域和任務(wù)中的表現(xiàn)都較為突出。
圖丨蘋果基礎(chǔ)模型在文本上的人類評估(來源:Apple)
最后,蘋果還為開發(fā)者推出了全新的“基礎(chǔ)模型框架”(Foundation Models framework),允許開發(fā)者直接調(diào)用設(shè)備上的 30 億參數(shù)模型。該框架與 Swift 語言深度集成,通過名為“引導(dǎo)式生成”的功能,開發(fā)者可以僅用幾行代碼就讓模型直接生成結(jié)構(gòu)化的 Swift 數(shù)據(jù)類型,極大地簡化了在應(yīng)用中集成 AI 功能的過程。蘋果強調(diào),整個框架的設(shè)計都貫徹了其負責(zé)任 AI 的原則,內(nèi)置了多重安全護欄,旨在幫助開發(fā)者構(gòu)建既智能又注重隱私保護的下一代應(yīng)用。
參考資料:
1. https://machinelearning.apple.com/research/apple-foundation-models-tech-report-2025
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.