谷歌Gemini最“小”的一次迭代,姚順宇為何高呼“不可阻擋”?

文 | 字母AI,作者 | 小金牙,編輯 | 王靖

人們還在津津樂道OpenAI和Anthropic兩家公司的老闆拒絕牽手,以至於握拳高舉的滑稽畫面,另一邊,谷歌一個反手迭代了模型。

谷歌Gemini最“小”的一次迭代,姚順宇為何高呼“不可阻擋”? -

而且這次迭代,頗像是狼披上了羊皮——從模型後綴的數字序號看,這是谷歌最“小”的一次迭代,之前都是從Gemini 2.0到Gemini 2.5這樣的迭代,這次從Gemini 3.0到Gemini 3.1Pro Preview。

谷歌Gemini最“小”的一次迭代,姚順宇為何高呼“不可阻擋”? -

但是這“.1”的迭代,進步得卻不是一星半點。

谷歌CEO皮查伊(Sundar Pichai)表示,新代模型非常擅長處理“超級複雜的任務”。例如將複雜概念可視化、將數據綜合成單一視圖或者將創意項目變為現實。

谷歌Gemini最“小”的一次迭代,姚順宇為何高呼“不可阻擋”? -

姚順宇也專門在X上發帖為Gemini 3.1 Pro Preview振臂,盛讚:

“Gemini不僅僅是一個好模型,更好的模型正在以不可阻擋之勢到來。”

谷歌Gemini最“小”的一次迭代,姚順宇為何高呼“不可阻擋”? -

需要注意的是,大約一周前,谷歌推出了“專用推理模式”Gemini 3 Deep Think,專為科學、研究、工程等複雜、開放式問題設計。

Demini 3 Deep Think是姚順宇從Anthropic跳槽到谷歌DeepMind之後參與的第一個項目。

而如今的Gemini 3.1 Pro Preview和Gemini 3 Deep Think有千絲萬縷的關係,官方表示“直接構建在Gemini 3 Deep Think的經驗和技術之上”。相當於把Deep Think的核心推理提升技術“下放”到更廣泛可用的Pro模型中。

Gemini 3.1 Pro Preview能做什麼

既然這次新代模型的突出能力在處理“超級複雜”的任務,那麼普通的對話放一邊,谷歌的官方博文中,重點給出了幾種示例秀肌肉。

第一,通過簡單的提示詞,創建SVG動畫。

這個功能前代也有,但是對比之下進步明顯。

比如提示詞“生成一個SVG,描繪一隻變色龍靜靜地坐在樹枝上。讓變色龍的眼睛跟隨用戶的鼠標光標在屏幕上移動。”

Gemini 3 Pro生成的動畫背景是單一的白色,變色龍也看起來很呆板,甚至一側有兩隻眼睛。

Gemini 3.1 Pro生成的動畫則有豐富的“深綠色叢林”背景,變色龍身體有黃色斑紋和圓點裝飾,眼睛立體,腿部姿勢自然彎曲。

谷歌Gemini最“小”的一次迭代,姚順宇為何高呼“不可阻擋”? -

再比如提示詞“生成一個滑動切換開關的SVG,當鼠標懸停在太陽圖標上時,將其變成發光的月亮,同時背景從明亮平滑漸變到黑暗。採用乾淨的扁平UI風格。”

Gemini 3 Pro給出的動畫雖然完成了任務,圖標可以隨鼠標變化,但是主圖標單一,是一個缺角的圓形圖案,用黃色代表白天,白色代表夜間。

Gemini 3.1 Pro生成的動畫要複雜得多,白天是黃日白雲,夜間是月牙繁星,兩套圖標絲滑變換。

谷歌Gemini最“小”的一次迭代,姚順宇為何高呼“不可阻擋”? -

總而言之,Gemini 3 Pro做的動畫,讓人想起多年前那個“學了三年動畫”的梗。

谷歌Gemini最“小”的一次迭代,姚順宇為何高呼“不可阻擋”? -

而Gemini 3.1 Pro交付的SVG動畫,已經達到了可以直接使用的效果。

第二,構建工程級別系統。

Gemini 3.1 Pro已經可以根據一段高複雜度的自然語言指令,直接生成一個集3D渲染、實時太陽星曆計算、API異步拉取和物理光效於一體的完整交互系統,而不是簡單頁面demo。

谷歌給出的示例中,用戶給出文字指令,Gemini 3.1 Pro生成了構建一個高保真、可交互的3D國際空間站(ISS)軌道追蹤器。使用高分辨率的Blue Marble紋理貼圖渲染一個精細的3D地球模型。

谷歌Gemini最“小”的一次迭代,姚順宇為何高呼“不可阻擋”? -

第三,生成交互式創意系統。

在另一個示例中,谷歌展示了Gemini 3.1 Pro編寫的一個複雜的3D椋鳥群舞(murmuration)模擬。

谷歌Gemini最“小”的一次迭代,姚順宇為何高呼“不可阻擋”? -

它不僅生成視覺代碼,還構建了一個沉浸式體驗,用戶可以通過手部追蹤操控鳥群,並聆聽根據鳥群運動變化的生成式配樂。

對於研究人員和設計師而言,這提供了一種強有力的方式來原型化感官豐富的界面。

第四,將文學主題轉化為可運行的代碼。

這個示例可能是普通人也最容易get到厲害之處的一個。

谷歌Gemini最“小”的一次迭代,姚順宇為何高呼“不可阻擋”? -

當被要求為艾米莉·勃朗特(Emily Brontë)的《呼嘯山莊》(Wuthering Heights)打造一個現代個人作品集網站時,該模型並未簡單地總結文本內容,而是基於小說的氛圍與情緒進行推理,設計出一個簡潔、當代感十足的界面,創建出一個捕捉主人公精神內核的網站。

抽象推理,這種能力的含金量不用多說。

到底有多強?

新代模型免不了過一下刷榜這一步。

而“.1”的升級,獲得了動輒倍數躍升的成績。

根據谷歌官方博文放出的測試結果,

在ARC-AGI-2基準測試中,3.1 Pro的驗證得分達到了77.1%。比3 Pro的推理性能提升了一倍以上。

這也符合3.1 Pro的示例,因為這個測試評估的是模型解決全新邏輯模式的能力。用人話說就是,抽象推理解謎的能力。

谷歌Gemini最“小”的一次迭代,姚順宇為何高呼“不可阻擋”? -

此外,在GPQA Diamond(科學知識測試)中,3.1 Pro得分94.3%;智能體類基準MCP Atlas上,得分69.2%;真實網絡瀏覽與信息整合能力的基準BrowseComp上,得分85.9%。

這些成績,均超過了Anthropic的Sonnet 4.6、Opus 4.6,以及OpenAI的GPT-5.2與GPT-5.3-Codex。

谷歌Gemini 3.1 Pro這次在ARC抽象推理和BrowseComp搜索任務上顯著拉開差距,顯示出明顯的Agent傾向,而非單純知識模型。

此外,專門做大模型基準測試與對比分析的第三方評測機構也發布了相關測試結果,大讚Gemini 3.1 Pro在構成Artificial Analysis Intelligence Index的10項評測中領先6項,相較於Gemini 3 Pro Preview在多項能力上顯著提升,尤其是在推理與知識、代碼能力以及降低幻覺方面進步最大。

谷歌Gemini最“小”的一次迭代,姚順宇為何高呼“不可阻擋”? -

而且,Gemini 3.1 Pro Preview保持較高的token效率。

運行完整Artificial Analysis Intelligence Index約需5700萬token(比Gemini 3 Pro Preview多100萬)。

這一token使用量低於其他在最大推理模式下運行的前沿模型,如Opus 4.6(max)和GPT-5.2(xhigh)。

結合更低的單token定價,Gemini 3.1 Pro Preview在前沿模型中具有成本優勢,運行完整Intelligence Index的成本不到Opus 4.6(max)的一半,不過仍約為領先開源模型GLM-5的兩倍。

能力翻倍價格不變

谷歌官方API定價顯示,Gemini 3 Pro/3.1 Pro Preview的收費結構是按token計費的:

小於200k tokens時,每百萬token輸入約2美元,輸出價格為4美元。大於200k tokens時,每百萬token輸入4美元,輸出18美元。

在上下文緩存方面,根據提示詞規模,每百萬 token 收取 0.20 至 0.40 美元,外加每小時每百萬 token 4.50 美元的存儲費。

這個價格,整體上和Gemini自己的上一代3 Pro一致,但要是和 Anthropic Opus 系列比起來,還是相對便宜的。 Opus這類模型輸入/輸出單價能在$5/$25左右。

尤其是結合當下它在模型能力上相當突出,這個價格更顯得極具競爭力。

不要忘了,谷歌這次發布的只是“預覽(Preview)”,谷歌很快就會推出正式版。而“.1”的迭代,谷歌也是在暗示其只是小秀肌肉。

目前,開發者可以在AI Studio、Gemini API、Gemini CLI、智能體開發平台Google Antigravity以及Android Studio使用3.1 Pro;企業用戶則可以在Vertex AI和Gemini Enterprise使用;普通用戶在Gemini應用和NotebookLM都能用上,不過後者僅限Pro和Ultra訂閱用戶。

各個社區里已經有不少人迫不及待上手操作,真的就和谷歌的演示一樣,手搓了不少驚艷的玩意。

有人用Gemini 3.1 Pro 生成了一個可交互的 3D 機械級汽車懸架系統模擬器,包含真實幾何結構、連桿約束與實時轉向和行程計算,相當於把機械工程建模、物理邏輯和3D可視化一次性寫成可運行工具,接近工程級原型能力。

谷歌Gemini最“小”的一次迭代,姚順宇為何高呼“不可阻擋”? -

有人用3.1 Pro製作“捉鬼獵人走過一棟鬧鬼的房子”的循環動畫,驚呼“Gemini沒有開玩笑”。

谷歌Gemini最“小”的一次迭代,姚順宇為何高呼“不可阻擋”? -

總之,谷歌這回是真憋了個大招。

小小一個“.1”,卻把推理和代碼能力拉得飛起,定價還這麼穩。

社區里滿溢的手搓demo的熱情,也證明了它的能力與實用性。

AI圈越來越現實了。模型再強,終究得看賬單值不值。企業開始精打細算每個token的回報,開發者也得掂量掂量性價比。谷歌這一步,不僅是搶回王座,更是把競爭推向“誰更會過日子”的新階段。

且看接下來,捏着拳頭的Anthropic和OpenAI,以及xAI、Meta、微軟等一眾競爭對手該如何應對吧。

分享你的喜愛