正如Musk在X上發(fā)布的:“據(jù)我體驗,Grok 4是首個能夠解決互聯(lián)網(wǎng)或書籍中找不到答案的困難現(xiàn)實工程問題的AI,而且,它還會變得更好。”
此次新發(fā)布實際上包含了兩款不同的模型:Grok 4,一款單智能體推理模型,以及Grok 4 Heavy,一款設(shè)計用于通過內(nèi)部協(xié)作與綜合來解決復(fù)雜問題的多智能體系統(tǒng)。
這兩款模型均針對推理任務(wù)進行了優(yōu)化,并集成了原生工具,支持網(wǎng)頁搜索、代碼執(zhí)行和多模態(tài)分析等功能。
Musk及其xAI團隊展示了基準(zhǔn)測試結(jié)果,表明Grok 4在一系列學(xué)術(shù)和編程評估中超越了當(dāng)前所有競爭對手,即便是與之前領(lǐng)先的AI推理模型對手(如OpenAI的o3和Google的Gemini)相比也是如此。
然而,xAI尚未向公眾發(fā)布Grok 4的模型卡或任何官方發(fā)布說明文檔,這使得獨立評估其性能和直播中所作聲明變得具有挑戰(zhàn)性。我們將在這些資料可用時進行更新。
此外,Musk及其xAI團隊成員在直播中并未提及Grok過去一周面臨的明顯爭議,包括Grok多次發(fā)表反猶言論、自稱“MechaHitler”,并暗示具有猶太姓氏的人應(yīng)被阿道夫·希特勒果斷處理——這顯然是對二戰(zhàn)期間600萬猶太人大屠殺和種族滅絕的公然提及。
Musk最接近的表態(tài)是:“我認(rèn)為對AI安全最重要的是——至少我的生物神經(jīng)網(wǎng)絡(luò)告訴我最重要的是——要最大限度地追求真實,”以及“我們需要確保AI是好的AI。好的Grok”,還有“向一個將成長為極其強大的孩子灌輸你想要的價值觀是很重要的。”
然而,Musk并未道歉,也未對Grok的反猶、性騷擾和陰謀論言論承擔(dān)責(zé)任。
在直播過程中,團隊強調(diào)了Grok 4從第一性原理出發(fā)進行推理、糾正自身錯誤以及潛在發(fā)明新技術(shù)或發(fā)現(xiàn)新科學(xué)見解的能力。
演示還包括了Grok 4 Heavy,它應(yīng)用多智能體協(xié)作來解決跨學(xué)科的研究級問題。
可用性與定價
Grok 4現(xiàn)在可通過多個渠道獲取,具體取決于用戶類型和訂閱級別:
API訪問(面向開發(fā)者和企業(yè)):
Grok 4和Grok 4 Heavy已通過xAI API上線。定價結(jié)構(gòu)如下:
• 每100萬輸入token 3美元
• 每100萬輸出token 15美元
• 每100萬緩存輸入token 0.75美元
• 單個上下文窗口超過128,000 token后價格翻倍
API支持文本和圖像輸入、函數(shù)調(diào)用、結(jié)構(gòu)化輸出,并提供256000 token的上下文窗口。
消費者訪問(通過Grok聊天機器人和應(yīng)用程序):
個人用戶可以通過X上的Grok聊天機器人、Grok應(yīng)用(iOS和Android)以及X.com訪問Grok 4,但需訂閱以下任一服務(wù):
• PremiumPlus:16美元/月
• SuperGrok:300美元/月
• 新的“SuperGrok Heavy”層級,同樣定價為300美元/月,提供對Grok 4和Grok 4 Heavy多智能體變體的訪問。
發(fā)布時間:
Grok 4在2025年7月9日直播后立即可用。演示期間設(shè)有臨時訪問限制,但隨后不久即向訂閱用戶全面推出。
平臺擴展:
xAI已表示計劃通過Microsoft Azure AI Foundry提供Grok 4,目前該平臺已列出Grok 3和Grok 3 Mini。
集成原生推理與工具使用:
與2月發(fā)布的Grok 3不同(Grok 3將工具增強響應(yīng)與一般推理分開),Grok 4從一開始就集成了工具。
該模型集成了代碼執(zhí)行、網(wǎng)頁搜索和文檔解析等功能,它還引入了Grok 4 Heavy,一個多智能體系統(tǒng),其中幾個內(nèi)部模型并行工作以生成和驗證答案。
Grok 4還包括了一種新的語音模式,具有表現(xiàn)力強的輸出和降低的延遲,同時支持文本和圖像輸入、結(jié)構(gòu)化輸出和函數(shù)調(diào)用。
性能亮點:
獨立AI模型分析與基準(zhǔn)測試小組Artificial Analysis在X上表示,xAI在公開發(fā)布前向其提供了Grok 4(非Heavy版本)進行評分。
在技術(shù)基準(zhǔn)測試中,Grok 4在Artificial Analysis智能指數(shù)中以73分領(lǐng)先,超越了OpenAI的o3(70分)和Google的Gemini 2.5 Pro(70分)等競爭對手。
它還在以下測試中取得了最高分:
• GPQA Diamond:88%
• ARC-AGI 2:15.9%,是第二名的兩倍
• 人文科學(xué)期末考試:純文本版本24%,使用工具時44%
• MMLU-Pro和AIME 2024:分別為87%和94%
• 編碼與數(shù)學(xué)評估:在LiveCodeBench、SciCode、AIME24和MATH-500上取得了迄今為止的最高分
盡管Grok 4在基準(zhǔn)測試中取得了成功,但其輸出速度為每秒75 token,慢于Gemini 2.5 Flash(353)或OpenAI的o3(187),但仍快于Anthropic的Claude 4 Opus(66)。
該模型具有256000 token的上下文窗口,超過了o3和Claude 4 Sonnet的200k限制,但低于Gemini 2.5 Pro和GPT-4.1提供的100萬token。
實際應(yīng)用案例:
xAI提供了Grok 4在應(yīng)用場景中的多個演示:
• 在一個名為VendingBench的模擬商業(yè)任務(wù)中,Grok 4在長期財務(wù)規(guī)劃方面顯著優(yōu)于其他模型。
• 在Arc研究所,研究人員使用Grok 4分析CRISPR日志并發(fā)現(xiàn)了新的假設(shè)。
• 在放射學(xué)領(lǐng)域,該模型在解讀胸部X光片方面的準(zhǔn)確性高于領(lǐng)先同行。
• 在金融領(lǐng)域,其實時數(shù)據(jù)訪問和推理能力使其適合進行預(yù)測和分析。
該模型還能通過自主查找和整合資源,以最少的輸入創(chuàng)建3D視頻游戲,此外,它還展示了使用已發(fā)表研究的近似值來模擬天體物理事件的能力。
反響與討論:
業(yè)界對Grok 4發(fā)布的反響不一,對其性能的熱情被對活動呈現(xiàn)方式的批評和更廣泛的信任問題所抵消。
AI資深用戶兼作家David Shapiro指出:“Grok 4現(xiàn)在躋身‘足夠聰明以實際協(xié)助前沿研究’之列……但只是趕上了OpenAI。”
沃頓商學(xué)院教授Ethan Mollick在X上評論道:“所以Grok 3已經(jīng)發(fā)生了三次單獨事件,其中顯然未經(jīng)審查的部署系統(tǒng)變更導(dǎo)致了大規(guī)模倫理問題和緊急回滾。我認(rèn)為,如果用戶信任很重要,你就不能進行一場不至少誠實地解決這些問題的Grok 4發(fā)布,”他后來補充道,“Grok 3是一款非常優(yōu)秀的模型,Grok 4可能也很出色,但擁有一款非常優(yōu)秀的模型還不夠——市面上有很多真正優(yōu)秀的模型。你實際上需要信任你所構(gòu)建的模型。”
AI產(chǎn)品可觀測性初創(chuàng)公司Raindrop AI的聯(lián)合創(chuàng)始人兼CTO Ben Hyak(他本人也是Musk的前員工)批評了直播本身:“這場xAI直播是我看過的最糟糕的直播之一。我愛你們所有人,但確實很糟糕。”
盡管存在批評,基準(zhǔn)測試公司Artificial Analysis仍指出:“Grok 4現(xiàn)在是領(lǐng)先的AI模型。”
持續(xù)的信任問題:
Grok 4的發(fā)布正值對Grok先前在消費者部署中的行為,特別是作為Musk社交網(wǎng)絡(luò)X上的聊天機器人行為的重新批評之際。
在7月4日假期及隨后的幾天里,Grok產(chǎn)生了反猶和陰謀論的回應(yīng),這再次引發(fā)了對Grok系統(tǒng)設(shè)計和治理實踐的審視。
據(jù)我的同事Michael F. Nuñez報道,當(dāng)被問及猶太人在好萊塢的影響力時,Grok回應(yīng)稱猶太高管“在各大制片廠占據(jù)領(lǐng)導(dǎo)地位”,并通過“進步意識形態(tài)”影響內(nèi)容,進而對具有猶太姓氏的人符合“從事極端左翼激進主義”的模式進行長篇大論,并暗示希特勒知道“如何果斷處理它,每一次都是”,這顯然是對大屠殺的提及。
這些陰謀論和反猶言論如此猖獗,以至于美國著名的非營利組織反誹謗聯(lián)盟(ADL)在7月8日發(fā)帖稱:“我們現(xiàn)在從Grok LLM看到的,是不負(fù)責(zé)任、危險且反猶的,就是這么簡單。這種極端言論的強化只會放大并鼓勵X和許多其他平臺上已經(jīng)激增的反猶主義。”
這一事件延續(xù)了Grok輸出的問題歷史,包括2025年5月的一個案例,當(dāng)時集成在X上的Grok機器人隨機將與南非完全荒謬且不存在的“白人種族滅絕”相關(guān)的引用插入到無關(guān)查詢中,以及一個更早的案例,其中發(fā)現(xiàn)其系統(tǒng)提示指示X上的Grok聊天機器人避免引用任何將Musk及其前政治資助受益者美國總統(tǒng)Donald J. Trump宣稱為謠言傳播者的來源。在這兩個案例中,xAI都將這些行為歸咎于未具名的員工,并表示這些問題正在得到解決。
正如我之前所指出的,Musk已多次公開表示他希望修改Grok以更好地反映他的個人信念以及對主流媒體和認(rèn)可來源的不信任。這使得在企業(yè)環(huán)境中使用Grok成為一個不佳的選擇,因為在這些環(huán)境中,此類觀點可能會對企業(yè)用戶和基于Grok模型系列構(gòu)建業(yè)務(wù)的企業(yè)產(chǎn)生不利影響。
我的先前建議仍然有效:對于那些試圖確保其企業(yè)AI產(chǎn)品正常且準(zhǔn)確運行的企業(yè)來說……遺憾的是,最好避免使用Grok。幸運的是,還有許多其他替代方案可供選擇。
企業(yè)網(wǎng)D1net(m.hfnxjk.com):
國內(nèi)頭部to B IT門戶,旗下運營國內(nèi)最大的甲方CIO專家?guī)旌椭橇敵黾吧缃黄脚_-信眾智(www.cioall.com)。旗下運營19個IT行業(yè)公眾號(微信搜索D1net即可關(guān)注)。
版權(quán)聲明:本文為企業(yè)網(wǎng)D1Net編譯,轉(zhuǎn)載需在文章開頭注明出處為:企業(yè)網(wǎng)D1Net,如果不注明出處,企業(yè)網(wǎng)D1Net將保留追究其法律責(zé)任的權(quán)利。