Google 全新 Gemini Pro 模型再次創下基準測試紀錄

Techcrunch

9 天前

AI 生成摘要

Gemini 3.1 Pro 承諾提供一個能夠處理更複雜工作形式的 Google 大型語言模型。

Google 的新 Gemini Pro 模型再次創下基準測試紀錄 | TechCrunch

使用超鳥優惠價，最高可節省 680 美元的通行證費用。立即註冊。

Disrupt 2026 通行證最高可省 680 美元。2 月 27 日截止。立即註冊。

主題

Google 的新 Gemini Pro 模型再次創下基準測試紀錄

Google 於週四發佈了其強大大型語言模型 (LLM) 的最新版本 Gemini Pro。該公司表示，3.1 版本目前以預覽版形式提供，並將於近期正式發佈。

Google 的新模型可能是迄今為止最強大的 LLM 之一。觀察家指出，Gemini 3.1 Pro 似乎比其前身 Gemini 3 有了巨大的進步——Gemini 3 在 11 月發佈時，就已被認為是一款能力極強的 AI 工具。

週四，Google 還分享了來自獨立基準測試的數據——例如名為「人類最後的考試」(Humanity’s Last Exam) 的測試——顯示其表現明顯優於之前的版本。

Gemini 3.1 Pro 也受到了 AI 新創公司 Mercor 執行長 Brendan Foody 的讚賞。該公司的基準測試系統 APEX 旨在衡量新 AI 模型執行實際專業任務的能力。「Gemini 3.1 Pro 現在位居 APEX-Agents 排行榜榜首，」Foody 在社群媒體貼文中表示，並補充說該模型令人印象深刻的結果顯示了「代理（Agents）在實際知識工作中的進步速度有多快」。

此次發佈正值 AI 模型大戰升溫之際，科技公司持續推出專為代理工作和多步驟推理設計的、功能日益強大的 LLM。其他主要競爭對手——包括 OpenAI 和 Anthropic——最近也發佈了新模型。

TechCrunch 創始人峰會最高可省 300 美元或 30%

主題

在 2 月 27 日前購買通行證，最高可省 680 美元。會見投資者。發現您的下一個投資組合公司。聆聽 250 多位科技領袖的見解，深入參與 200 多場會議，並探索 300 多家正在打造未來的新創公司。不要錯過這些一次性的優惠。

電子報

訂閱以獲取業界最大的科技新聞

每個工作日和週日，您都可以獲得 TechCrunch 最精華的報導。

TechCrunch Mobility 是您獲取交通新聞和見解的首選之地。

新創公司是 TechCrunch 的核心，每週為您送上我們最優秀的報導。

為業界大咖提供開啟新的一天所需的資訊。

提交電子郵件即表示您同意我們的條款和隱私聲明。

Google 全新 Gemini Pro 模型再次創下基準測試紀錄

Google 的新 Gemini Pro 模型再次創下基準測試紀錄 | TechCrunch

主題

更多來自 TechCrunch

Google 的新 Gemini Pro 模型再次創下基準測試紀錄

TechCrunch 創始人峰會最高可省 300 美元或 30%

TechCrunch 創始人峰會最高可省 300 美元或 30%

電子報

相關內容

Nvidia 加深對印度 AI 新創生態系統的早期階段投入

FBI 表示 ATM「中大獎」(jackpotting) 攻擊正在增加，駭客從中竊取數百萬現金

在關鍵時刻，Snap 失去了一位 Specs 高階主管

最新 AI 消息

Google 的新 Gemini Pro 模型再次創下基準測試紀錄

Nvidia 加深對印度 AI 新創生態系統的早期階段投入

為什麼這些新創公司執行長不認為 AI 會取代人類角色

Google's new Gemini Pro model has record benchmark scores—again

Google 的新 Gemini Pro 模型再次創下基準測試紀錄 | TechCrunch

主題

更多來自 TechCrunch

Google 的新 Gemini Pro 模型再次創下基準測試紀錄

TechCrunch 創始人峰會最高可省 300 美元或 30%

TechCrunch 創始人峰會最高可省 300 美元或 30%

電子報

相關內容

Nvidia 加深對印度 AI 新創生態系統的早期階段投入

FBI 表示 ATM「中大獎」(jackpotting) 攻擊正在增加，駭客從中竊取數百萬現金

在關鍵時刻，Snap 失去了一位 Specs 高階主管

最新 AI 消息

Google 的新 Gemini Pro 模型再次創下基準測試紀錄

Nvidia 加深對印度 AI 新創生態系統的早期階段投入

為什麼這些新創公司執行長不認為 AI 會取代人類角色