欧美zozo特精品另类,玖玖香蕉视频,奥田咲在线播放

「這是世界上最聰明的人工智能。」

盡管比原定發布會時間推遲了近一個小時，但在今天中午（北京時間 9 月 10 日），xAI 創始人馬斯克還是發布了新一代大模型 Grok 4。

紙面上，Grok 4 已經全面超越了所有競爭對手，包括 OpenAI o3、Gemini 2.5 Pro 以及 Claude 4 等當前的頂級大模型，不管是傳統的基準測試，還是 SAT 考試（美國高考）以及各個學科的 GRE 水平測試。

但比起這些已經有點乏味的傳統基準測試，更有意思的是，Grok 4 還跑了被成為「人類最后一場閉卷考試」的 Humanity ’ s Last Exam（簡稱 HLE 測試），并超越此前一眾模型，實現了最高 44.4% 的準確率。

圖 / xAI

馬斯克在直播中也指出，Grok 4 比幾乎所有學科的所有研究生都更聰明，而至少在學術問題上，也優于所有學科的博士水平，「沒有例外。」

這還不是 Grok 4 全部潛力。按照馬斯克的說法，Grok 4 基礎模型的第七版將在本月完成，然后將進行后訓練 RL（強化學習）等，最終也會擁有出色的視頻理解能力和工具調用能力。按照路線圖，接下來幾個月 xAI 還會推出代碼模型、多模型智能體以及視頻生成模型。

此外，它們還推出了一項更高等級的訂閱服務—— SuperGrok Heavy，能夠使用「最強模型」Grok 4 Heavy。

不過相比紙面上的無敵，在實際演示過程中，Grok 還是會出現比較低級的錯誤。更耐人尋味的是，就在 Grok 4 發布前幾個小時，xAI 首席科學家 Igor Babuschkin 突然宣布了辭職。

從技術視角出發，Grok 4 并不只是一次「常規迭代」。在這場 40 多分鐘的發布直播中，xAI 試圖傳達的信息是：這不僅是一個在挑戰人類智能的新模型，還是一個應用潛力巨大的 AI。

馬斯克將 Grok 4 稱為「在所有學科都超過博士水平」，并不完全是營銷夸張。在 AIME25、HMMT25、GPQA 等主流基準測試中，Grok 4 將大模型的成績進一步推向了極值，其中 Grok 4 Heavy 甚至在 AIME25（美國數學競賽邀請賽）上拿下了滿分。

但更具標志性的是 ARC-AGI 以及 HLE 測試。前者借由 OpenAI o3 的測試引起了業界重視，主要聚焦 AI 的「學習」能力，而非「技能」，Grok 4 在 v1 版本中超過 o3 實現了 66% 的準確率，在最新的 v2 版本中更是大幅領先其他大模型，做到了 15.9% 的準確率。

至于 HLE 測試，則代表了人類智能的極限，由全球專家聯合提出 2500 個專業問題，涉及數學、生物、計算機科學、化學、物理、工程學以及人類學等等不同學科，所以直接被命名為「人類終極考試」。

在 Grok 4 之前，排名第一的模型 Gemini 2.5 Pro 準確率為 21.6%，其次是 OpenAI o3 20.3%。相比之下，Grok 4 的準確率則提高到了 25.4%，并且在借助工具的完整形態下還能進一步提高到 44.4%。

現場演示中，xAI 就展示了 Grok 4 對 HLE 測試中專家級題目的準確，馬斯克認為人類中也只有極少人能夠準確。而類似的問題，還有 2499 個。

除此之外，還有一個基于商業場景模擬的 Vending-Bench（自動售貨機基準測試），需要 AI 進行管理庫存、聯系供應商、設定價格等。從測試結果來看， Grok 4 比起 Claude Opus 4 以及真人的運營效率都要高，創造的凈值是真人的 5 倍以上。

而在直播中，xAI 還進行了多項演示，包括實時抓取 X 平臺上的帖子，整理出各家參與 HLE 測試的時間線，或是找出 xAI 團隊中頭像最古怪的那一個。既展示了 Grok 4 的能力，也強調了與 X 平臺深度整合的優勢。

直播中生成時間最長的一個現場演示，則是 Grok 4 對于 2025 年 MLB 世界大賽冠軍的分析預測，亮點主要在于它對工具、數據的使用和分析過程，包括瀏覽了很多賠率網站的數據來計算。而整個過程，耗時近 4 分半。

此外，Grok 4 還能遍覽關鍵論文和資料來開發一個網頁，模擬兩個黑洞接觸會發生的變化。馬斯克還表示，接下來他們還會為 Grok 4 提供真正的專業工具，包括物理學家使用的專業擬真軟件，并預測 Grok 4 明年或許就能發現新的物理定律。

這聽上去過于夸張，也缺乏實質支撐，但馬斯克的 AI 敘事可能并不在于趕超 Google 和 OpenAI，而是要改變目標本身。而且從產品設計角度看，xAI 正在嘗試將 Grok 4 變成一個與信息流緊密耦合的 AI 工具，而不是一個只能回答問題的機器人。

在模型理解維度，Grok 4 還展示了對多模態輸入的部分能力。盡管現場沒有正式演示圖像理解和生成能力，但馬斯克強調了其「正在訓練」。這意味著 Grok 4 的完整形態仍會是多模態大模型，而非 DeepSeek-R1 這樣僅支持文本的推理模型。

換言之，這也意味著 Grok 4 能處理更復雜的感知輸入，進一步拓展在現實世界的適用場景——例如人形機器人、自動駕駛、科研建模等。

值得一提的是，馬斯克在直播中提及，「Grok 4 Heavy」才是當前最強版本，在推理、編碼乃至物理學原理的理解上都勝過通用版模型。但 Heavy 版本目前仍處于內測階段，且暫未向公眾開放。

而在 Grok 4 的發布背后，是 10 倍于 Grok 3 的訓練算力，也是 xAI 數月前在美國孟菲斯完成部署的超算集群「Colossus」。按照透露，這套超算塞下了 10 萬張英偉達 H100 GPU，并可能率先部署 GB200 計算節點。

如果只看模型本身，Grok 4 的確展示了不容忽視的實力。尤其在這次直播中，Grok 的語音能力也迎來了升級——不僅能夠自然地切換語調，還新增了包括英式發音在內的多個聲音角色。xAI 甚至展示了 Grok 可以「唱歌」，并在指令下朗讀詩歌。

問題也出現在這里。在交互中，Grok 被要求「唱一首歌」，但卻進入了「念詩」狀態，用朗讀語氣念出了歌詞。雖然是個小失誤，卻暴露出語音模型背后對多模態理解尚不穩定的事實——唱歌不只是發音，而是旋律、語調和節奏的協同輸出，Grok 顯然還沒準備好。

類似的小插曲貫穿整場發布。發布直播原定時間比計劃晚了一小時開始，沒有任何解釋。直播內容雖然豐富，但整體節奏略顯倉促，功能展示之間缺乏過渡邏輯。一些演示明顯是預先準備好的。這種略顯倉促的節奏，與前一天高管的離職消息疊加后，難免讓人聯想到內部的不穩定。

就在發布當天，xAI 首席科學家 Igor Babuschkin 宣布離職，而在更早前，X 公司 CEO Linda Yaccarino 也辭去了職務，并留下了一句意味深長的話：「現在，隨著 X 與 xAI 一起進入新篇章，最好的事情還在后頭。」

兩人一走，發布會一開，再加上馬斯克在直播中多次表達的那種對 AI「太聰明」的擔憂，構成了一種微妙的不安感：Grok 4 也許真的很強，但它背后的組織架構、產品節奏，可能并沒有準備好迎接它自己造出的「智能飛躍」。

更現實的問題是，Grok 4 還必須面對全世界最強的兩個對手—— OpenAI 的 ChatGPT，和 Google 的 Gemini。在技術實力逐漸追平的今天，真正的分水嶺往往并不在于模型能不能答對一個考題，而在于平臺、生態和用戶。

更麻煩的是，Grok 還維持了一種「不一樣」的姿態——有性格、敢說話、更自由。這是馬斯克為它設計的人設。但也正是這種人設，讓 Grok 更容易翻車。就像過去幾個月，它因為生成偏激內容而引發輿論。

所以，這一代 Grok 4 確實很強，甚至可能已經比研究生乃至博士更聰明。但技術領先不代表用戶信任，也不代表產品成熟，實際體驗我們還是要看模型在實際體驗中的表現。

馬斯克在直播中一度表示，有點擔心「AI 的智能遠遠超過人類」對于我們是好是壞，但又強調「已經某種程度上接受了這樣的現實，即使它不是好的，我也至少想活著看到它發生。」

日本一区二区三区久久-日本一区二区三区久久精品-日本一区二区三区日本免费-日本一区二区三区在线观看视频-国产不卡免费视频-国产不卡视频

宙世代元宇宙

元宇宙黨建解決方案

元宇宙文旅解決方案

元宇宙展廳解決方案

元宇宙行業峰會解決方案

元宇宙營銷解決方案

元宇宙會展解決方案

元宇宙演藝節目解決方案

元宇宙博物館解決方案

元宇宙圖書館解決方案

元宇宙校園解決方案

元宇宙企業展廳解決方案

元宇宙藝術展解決方案

元宇宙電商解決方案

融媒體解決方案

ZAKER智慧云

媒體解決方案

黨建解決方案

公檢法解決方案

智慧交通解決方案

高校解決方案

AI視頻剪輯

AI視頻剪輯

AI智能客服

AI工具箱

AI寫稿助手

AI口語陪練

我的訂閱

Grok 4 號稱“全球最強 AI ”？其實是馬斯克的自吹自擂

宙世代

一起剪

相關閱讀

從游戲本卷王到輕薄本新銳：潘春節解讀星耀14背后的戰略轉向

最新評論

雷科技

熱門推薦