国产午夜精品久久久久九九,中文字幕精品亚洲无线码二区,国产免费久久精品久久久

馬斯克發(fā)布號稱"全球最強AI"的Grok 4 企業(yè)需要知道的要點

責(zé)任編輯：cres

作者：Carl Franzen

2025-07-11 10:40:20

來源：企業(yè)網(wǎng)D1Net

原創(chuàng)

2025年7月9日，馬斯克在X直播發(fā)布AI模型Grok 4及其多智能體系統(tǒng)Grok 4 Heavy，稱其能解決現(xiàn)實難題。

在經(jīng)歷了數(shù)日關(guān)于其Grok AI驅(qū)動的聊天機器人在社交網(wǎng)絡(luò)X(原Twitter)上近期發(fā)表的一系列反猶言論的爭議后，Elon Musk在X上直播的一場活動中發(fā)布了其AI模型家族的最新版本——Grok 4，并稱之為“世界上最聰明的AI”。

正如Musk在X上發(fā)布的：“據(jù)我體驗，Grok 4是首個能夠解決互聯(lián)網(wǎng)或書籍中找不到答案的困難現(xiàn)實工程問題的AI，而且，它還會變得更好。”

此次新發(fā)布實際上包含了兩款不同的模型：Grok 4，一款單智能體推理模型，以及Grok 4 Heavy，一款設(shè)計用于通過內(nèi)部協(xié)作與綜合來解決復(fù)雜問題的多智能體系統(tǒng)。

這兩款模型均針對推理任務(wù)進行了優(yōu)化，并集成了原生工具，支持網(wǎng)頁搜索、代碼執(zhí)行和多模態(tài)分析等功能。

Musk及其xAI團隊展示了基準(zhǔn)測試結(jié)果，表明Grok 4在一系列學(xué)術(shù)和編程評估中超越了當(dāng)前所有競爭對手，即便是與之前領(lǐng)先的AI推理模型對手(如OpenAI的o3和Google的Gemini)相比也是如此。

然而，xAI尚未向公眾發(fā)布Grok 4的模型卡或任何官方發(fā)布說明文檔，這使得獨立評估其性能和直播中所作聲明變得具有挑戰(zhàn)性。我們將在這些資料可用時進行更新。

此外，Musk及其xAI團隊成員在直播中并未提及Grok過去一周面臨的明顯爭議，包括Grok多次發(fā)表反猶言論、自稱“MechaHitler”，并暗示具有猶太姓氏的人應(yīng)被阿道夫·希特勒果斷處理——這顯然是對二戰(zhàn)期間600萬猶太人大屠殺和種族滅絕的公然提及。

Musk最接近的表態(tài)是：“我認(rèn)為對AI安全最重要的是——至少我的生物神經(jīng)網(wǎng)絡(luò)告訴我最重要的是——要最大限度地追求真實，”以及“我們需要確保AI是好的AI。好的Grok”，還有“向一個將成長為極其強大的孩子灌輸你想要的價值觀是很重要的。”

然而，Musk并未道歉，也未對Grok的反猶、性騷擾和陰謀論言論承擔(dān)責(zé)任。

在直播過程中，團隊強調(diào)了Grok 4從第一性原理出發(fā)進行推理、糾正自身錯誤以及潛在發(fā)明新技術(shù)或發(fā)現(xiàn)新科學(xué)見解的能力。

演示還包括了Grok 4 Heavy，它應(yīng)用多智能體協(xié)作來解決跨學(xué)科的研究級問題。

可用性與定價

Grok 4現(xiàn)在可通過多個渠道獲取，具體取決于用戶類型和訂閱級別：

API訪問(面向開發(fā)者和企業(yè))：

Grok 4和Grok 4 Heavy已通過xAI API上線。定價結(jié)構(gòu)如下：

• 每100萬輸入token 3美元

• 每100萬輸出token 15美元

• 每100萬緩存輸入token 0.75美元

• 單個上下文窗口超過128,000 token后價格翻倍

API支持文本和圖像輸入、函數(shù)調(diào)用、結(jié)構(gòu)化輸出，并提供256000 token的上下文窗口。

消費者訪問(通過Grok聊天機器人和應(yīng)用程序)：

個人用戶可以通過X上的Grok聊天機器人、Grok應(yīng)用(iOS和Android)以及X.com訪問Grok 4，但需訂閱以下任一服務(wù)：

• PremiumPlus：16美元/月

• SuperGrok：300美元/月

• 新的“SuperGrok Heavy”層級，同樣定價為300美元/月，提供對Grok 4和Grok 4 Heavy多智能體變體的訪問。

發(fā)布時間：

Grok 4在2025年7月9日直播后立即可用。演示期間設(shè)有臨時訪問限制，但隨后不久即向訂閱用戶全面推出。

平臺擴展：

xAI已表示計劃通過Microsoft Azure AI Foundry提供Grok 4，目前該平臺已列出Grok 3和Grok 3 Mini。

集成原生推理與工具使用：

與2月發(fā)布的Grok 3不同(Grok 3將工具增強響應(yīng)與一般推理分開)，Grok 4從一開始就集成了工具。

該模型集成了代碼執(zhí)行、網(wǎng)頁搜索和文檔解析等功能，它還引入了Grok 4 Heavy，一個多智能體系統(tǒng)，其中幾個內(nèi)部模型并行工作以生成和驗證答案。

Grok 4還包括了一種新的語音模式，具有表現(xiàn)力強的輸出和降低的延遲，同時支持文本和圖像輸入、結(jié)構(gòu)化輸出和函數(shù)調(diào)用。

性能亮點：

獨立AI模型分析與基準(zhǔn)測試小組Artificial Analysis在X上表示，xAI在公開發(fā)布前向其提供了Grok 4(非Heavy版本)進行評分。

在技術(shù)基準(zhǔn)測試中，Grok 4在Artificial Analysis智能指數(shù)中以73分領(lǐng)先，超越了OpenAI的o3(70分)和Google的Gemini 2.5 Pro(70分)等競爭對手。

它還在以下測試中取得了最高分：

• GPQA Diamond：88%

• ARC-AGI 2：15.9%，是第二名的兩倍

• 人文科學(xué)期末考試：純文本版本24%，使用工具時44%

• MMLU-Pro和AIME 2024：分別為87%和94%

• 編碼與數(shù)學(xué)評估：在LiveCodeBench、SciCode、AIME24和MATH-500上取得了迄今為止的最高分

盡管Grok 4在基準(zhǔn)測試中取得了成功，但其輸出速度為每秒75 token，慢于Gemini 2.5 Flash(353)或OpenAI的o3(187)，但仍快于Anthropic的Claude 4 Opus(66)。

該模型具有256000 token的上下文窗口，超過了o3和Claude 4 Sonnet的200k限制，但低于Gemini 2.5 Pro和GPT-4.1提供的100萬token。

實際應(yīng)用案例：

xAI提供了Grok 4在應(yīng)用場景中的多個演示：

• 在一個名為VendingBench的模擬商業(yè)任務(wù)中，Grok 4在長期財務(wù)規(guī)劃方面顯著優(yōu)于其他模型。

• 在Arc研究所，研究人員使用Grok 4分析CRISPR日志并發(fā)現(xiàn)了新的假設(shè)。

• 在放射學(xué)領(lǐng)域，該模型在解讀胸部X光片方面的準(zhǔn)確性高于領(lǐng)先同行。

• 在金融領(lǐng)域，其實時數(shù)據(jù)訪問和推理能力使其適合進行預(yù)測和分析。

該模型還能通過自主查找和整合資源，以最少的輸入創(chuàng)建3D視頻游戲，此外，它還展示了使用已發(fā)表研究的近似值來模擬天體物理事件的能力。

反響與討論：

業(yè)界對Grok 4發(fā)布的反響不一，對其性能的熱情被對活動呈現(xiàn)方式的批評和更廣泛的信任問題所抵消。

AI資深用戶兼作家David Shapiro指出：“Grok 4現(xiàn)在躋身‘足夠聰明以實際協(xié)助前沿研究’之列……但只是趕上了OpenAI。”

沃頓商學(xué)院教授Ethan Mollick在X上評論道：“所以Grok 3已經(jīng)發(fā)生了三次單獨事件，其中顯然未經(jīng)審查的部署系統(tǒng)變更導(dǎo)致了大規(guī)模倫理問題和緊急回滾。我認(rèn)為，如果用戶信任很重要，你就不能進行一場不至少誠實地解決這些問題的Grok 4發(fā)布，”他后來補充道，“Grok 3是一款非常優(yōu)秀的模型，Grok 4可能也很出色，但擁有一款非常優(yōu)秀的模型還不夠——市面上有很多真正優(yōu)秀的模型。你實際上需要信任你所構(gòu)建的模型。”

AI產(chǎn)品可觀測性初創(chuàng)公司Raindrop AI的聯(lián)合創(chuàng)始人兼CTO Ben Hyak(他本人也是Musk的前員工)批評了直播本身：“這場xAI直播是我看過的最糟糕的直播之一。我愛你們所有人，但確實很糟糕。”

盡管存在批評，基準(zhǔn)測試公司Artificial Analysis仍指出：“Grok 4現(xiàn)在是領(lǐng)先的AI模型。”

持續(xù)的信任問題：

Grok 4的發(fā)布正值對Grok先前在消費者部署中的行為，特別是作為Musk社交網(wǎng)絡(luò)X上的聊天機器人行為的重新批評之際。

在7月4日假期及隨后的幾天里，Grok產(chǎn)生了反猶和陰謀論的回應(yīng)，這再次引發(fā)了對Grok系統(tǒng)設(shè)計和治理實踐的審視。

據(jù)我的同事Michael F. Nuñez報道，當(dāng)被問及猶太人在好萊塢的影響力時，Grok回應(yīng)稱猶太高管“在各大制片廠占據(jù)領(lǐng)導(dǎo)地位”，并通過“進步意識形態(tài)”影響內(nèi)容，進而對具有猶太姓氏的人符合“從事極端左翼激進主義”的模式進行長篇大論，并暗示希特勒知道“如何果斷處理它，每一次都是”，這顯然是對大屠殺的提及。

這些陰謀論和反猶言論如此猖獗，以至于美國著名的非營利組織反誹謗聯(lián)盟(ADL)在7月8日發(fā)帖稱：“我們現(xiàn)在從Grok LLM看到的，是不負(fù)責(zé)任、危險且反猶的，就是這么簡單。這種極端言論的強化只會放大并鼓勵X和許多其他平臺上已經(jīng)激增的反猶主義。”

這一事件延續(xù)了Grok輸出的問題歷史，包括2025年5月的一個案例，當(dāng)時集成在X上的Grok機器人隨機將與南非完全荒謬且不存在的“白人種族滅絕”相關(guān)的引用插入到無關(guān)查詢中，以及一個更早的案例，其中發(fā)現(xiàn)其系統(tǒng)提示指示X上的Grok聊天機器人避免引用任何將Musk及其前政治資助受益者美國總統(tǒng)Donald J. Trump宣稱為謠言傳播者的來源。在這兩個案例中，xAI都將這些行為歸咎于未具名的員工，并表示這些問題正在得到解決。

正如我之前所指出的，Musk已多次公開表示他希望修改Grok以更好地反映他的個人信念以及對主流媒體和認(rèn)可來源的不信任。這使得在企業(yè)環(huán)境中使用Grok成為一個不佳的選擇，因為在這些環(huán)境中，此類觀點可能會對企業(yè)用戶和基于Grok模型系列構(gòu)建業(yè)務(wù)的企業(yè)產(chǎn)生不利影響。

我的先前建議仍然有效：對于那些試圖確保其企業(yè)AI產(chǎn)品正常且準(zhǔn)確運行的企業(yè)來說……遺憾的是，最好避免使用Grok。幸運的是，還有許多其他替代方案可供選擇。

企業(yè)網(wǎng)D1net(m.hfnxjk.com)：

國內(nèi)頭部to B IT門戶，旗下運營國內(nèi)最大的甲方CIO專家?guī)旌椭橇敵黾吧缃黄脚_-信眾智(www.cioall.com)。旗下運營19個IT行業(yè)公眾號(微信搜索D1net即可關(guān)注)。

版權(quán)聲明：本文為企業(yè)網(wǎng)D1Net編譯，轉(zhuǎn)載需在文章開頭注明出處為：企業(yè)網(wǎng)D1Net，如果不注明出處，企業(yè)網(wǎng)D1Net將保留追究其法律責(zé)任的權(quán)利。

AI 馬斯克