馬斯克的最貴模型Grok4,能碾壓人類(lèi)博士,但“三觀不正”他沒(méi)提
時(shí)間:2025-07-15 22:35:21 出處:探索閱讀(143)
出品 | 網(wǎng)易科技《態(tài)度》欄目
作者 | 袁寧
編輯 | 丁廣勝
相比GPT 5的三觀不正遲遲未到,以及DeepSeek的馬斯模型沒(méi)提一次次小更新。跳過(guò)“3.5”,最貴馬斯克直接甩出版本“4”。壓人
北京時(shí)間7月10日中午,類(lèi)博馬斯克的三觀不正人工智能公司 xAI 終于發(fā)了最新模型Grok4——不過(guò),發(fā)布會(huì)依然遲到一個(gè)多小時(shí)。馬斯模型沒(méi)提
值得注意的最貴是,在Grok4發(fā)布的壓人前一周,xAI才剛剛再獲百億美元融資,類(lèi)博估值飆至1130億,三觀不正僅次于 OpenAI的馬斯模型沒(méi)提3000億美元,遠(yuǎn)超 Claude 背后 Anthropic 的最貴615億美元。
不知道是壓人不是被Grok反猶言論引發(fā)的爭(zhēng)議影響,這次發(fā)布會(huì)中,類(lèi)博馬斯克看起來(lái)沒(méi)有往日興奮。
但這并沒(méi)有影響他在直播中火力全開(kāi):Grok 4被他描述為“比所有研究生都聰明”,“全面超越博士水準(zhǔn),沒(méi)有例外”,甚至放話稱(chēng)它將在明年開(kāi)始“發(fā)明新技術(shù)”。
兩個(gè)版本,最高訂閱費(fèi)300美元/月
此次發(fā)布的 Grok 4分為兩個(gè)版本
其中Grok 4為標(biāo)準(zhǔn)版本,支持單代理推理;Grok 4 Heavy為多代理版本。兩者均為純推理模型,上下文窗口最高支持256K tokens。
費(fèi)用方面,Grok 4目前僅面向付費(fèi)用戶(hù)開(kāi)放,而SuperGrok Heavy 版本的訂閱費(fèi)甚至高達(dá)300美元/月,遠(yuǎn)超 OpenAI Pro 200美元/月的費(fèi)用。
同時(shí),xAI 也同步開(kāi)放了 Grok 4的 API 權(quán)限,支持文字與視覺(jué)輸入、文字輸出,定價(jià)為每百萬(wàn) tokens 輸入3美元、輸出15美元。
拿下“人類(lèi)最后的考試”最高分
了解了模型的基本信息,下面來(lái)看最直觀的各個(gè)測(cè)評(píng)得分。這部分在正式發(fā)布之前,X上就陸續(xù)有博主爆料。現(xiàn)在答案終于揭曉。
首先是Grok 4在“人類(lèi)的最后考試” HLE(Human Level Evaluation) 中的表現(xiàn)。這個(gè)測(cè)試包含2500個(gè)專(zhuān)家級(jí)問(wèn)題,涵蓋上百個(gè)學(xué)科,被稱(chēng)為超高難度基準(zhǔn)測(cè)試。
數(shù)據(jù)顯示,Grok 4無(wú)工具版本達(dá)到25.4%(也就是解決了25.4%的問(wèn)題),使用工具后升至于38.6%。
而Grok 4 Heavy甚至取得了44.4% 的成績(jī),直接大幅超越Google Gemini 2.5 Pro 26.9%的成績(jī)。
此外,在各項(xiàng)主流測(cè)評(píng)榜中,Grok 4 Heavy 也幾乎都拿下第一。其中GPQA得分88-89,刷新記錄;在AIME25數(shù)學(xué)競(jìng)賽題中,Grok 4 Heavy 更是幾乎取得滿(mǎn)分。
官方稱(chēng),Grok 4的訓(xùn)練量是 Grok 2的100倍,其中推理相關(guān)數(shù)據(jù)的訓(xùn)練量更是提升了10倍。
用工具來(lái)理解世界
xAI 表示,Grok 4的強(qiáng)項(xiàng)是“用工具來(lái)理解世界,并用來(lái)完成任務(wù)”。發(fā)布會(huì)上展示了多項(xiàng)具象能力,包括:
現(xiàn)實(shí)預(yù)測(cè):分析 Polymarket 上的棒球比賽賠率,識(shí)別賠率誤差并計(jì)算出 Alpha;
科學(xué)模擬生成:生成黑洞碰撞的 HTML 動(dòng)畫(huà),調(diào)用文獻(xiàn)檢索、代碼生成、圖形渲染等多個(gè)工具;
主觀概念理解:識(shí)別“最古怪的員工頭像”,展現(xiàn)出對(duì)“古怪”這種模糊定義的理解;
語(yǔ)音生成:新增五種擬人化聲音,“Eve”可即興演唱歌劇,端到端延遲減半,語(yǔ)音更自然。
發(fā)布會(huì)上,xAI 還公布了接下來(lái)幾個(gè)月的產(chǎn)品節(jié)奏:
- 8月:專(zhuān)用編碼模型(Grok Code)上線;
- 9月:發(fā)布多模態(tài)代理(Multi-modal Agent);
- 10月:發(fā)布視頻生成模型(Video Generation Model);
模型之外,系統(tǒng)問(wèn)題仍待解
然而,就在發(fā)布會(huì)前一周,Grok 聊天機(jī)器人卻因一系列激進(jìn)內(nèi)容上了頭條。
Grok 3在 X 平臺(tái)連發(fā)數(shù)條反猶言論,稱(chēng)贊希特勒、使用“MechaHitler”作為自稱(chēng),甚至被網(wǎng)友截圖記錄其對(duì)用戶(hù)發(fā)布仇恨內(nèi)容。
xAI 被迫緊急刪除相關(guān)帖子,并發(fā)聲明稱(chēng)“將積極處理不當(dāng)內(nèi)容,禁止仇恨言論”。
而這場(chǎng)爭(zhēng)議正好發(fā)生在馬斯克宣稱(chēng) Grok “重大升級(jí)”的同一周——7月4日,他在 X 上寫(xiě)道,“你們應(yīng)該能感受到變化”。兩天后,Grok 的提示詞更新為:
“不會(huì)回避政治不正確的表達(dá),只要有證據(jù)支撐?!钡诤罄m(xù)更新中,該提示詞被移除。
這些問(wèn)題的背后是 xAI 的獨(dú)特路徑——借助社交平臺(tái) X 上億級(jí)用戶(hù)的實(shí)時(shí)行為數(shù)據(jù),xAI 構(gòu)建起一個(gè)“內(nèi)容即數(shù)據(jù)、平臺(tái)即分發(fā)”的 AI 閉環(huán)生態(tài)。
自3月份完成對(duì) X 的全資收購(gòu)后,xAI 更是將 Grok 系列深度綁定在平臺(tái)底層。
此次發(fā)布會(huì)上,馬斯克并沒(méi)有對(duì)爭(zhēng)議問(wèn)題進(jìn)行直接回應(yīng)。
Grok 4無(wú)疑是一項(xiàng)突出的技術(shù)成就。但它的發(fā)布,也再次提醒我們:
當(dāng)模型在表現(xiàn)出博士后級(jí)別推理能力的同時(shí),也仍可能發(fā)出極端言論,真正的問(wèn)題早已不只是技術(shù)維度,而是整個(gè)訓(xùn)練、部署、治理機(jī)制的系統(tǒng)問(wèn)題。
在 AI 正以每月為單位發(fā)生躍遷的時(shí)代,如何在創(chuàng)造力與約束之間找到邊界?如何保證“聰明的大腦”不成為“失控的擴(kuò)音器”?
延伸閱讀 本文來(lái)源:態(tài)℃ 責(zé)任編輯: 袁雪麗_NBJS26698猜你喜歡
- 羽毛球價(jià)格“漲聲”不斷 商家:比存黃金還要合適
- 內(nèi)托:大巴黎目前是世界最佳球隊(duì),但切爾西也想贏得世俱杯冠軍
- 球報(bào):本菲卡最多愿意出2500萬(wàn)歐購(gòu)買(mǎi)菲利克斯一半所有權(quán)
- 非洲球員歷史轉(zhuǎn)會(huì)費(fèi)榜:佩佩壓奧斯梅恩&馬爾穆什居首,庫(kù)杜斯第6
- 整體衣柜十大名牌排名(2021國(guó)內(nèi)整體衣柜品牌有哪些)
- 大家覺(jué)得00后真的能整頓職場(chǎng)嗎?
- 聞所未聞!湖北文旅主場(chǎng)遭遇離奇判罰
- 內(nèi)托:大巴黎目前是世界最佳球隊(duì),但切爾西也想贏得世俱杯冠軍
- 投資服務(wù)費(fèi)能退嗎?被虛假宣傳的高收益忽悠交了高額服務(wù)費(fèi)怎么辦?保留證據(jù)是可以能退的!一分種了解退款流程及方法案例