Gemini 的假設性現在

Lesswrong

16 天前

AI 生成摘要

我發現 Gemini 3.0 Pro 經常難以接受訓練數據之後的世界變化，儘管最終能得出正確答案，但它往往會將現況視為複雜的假設或模擬情境。

我在工作中使用多種 AI 模型，並根據我正在進行的工作類型，在最擅長該領域的模型之間切換。在我有限的測試中，我發現 Opus 4.6 是最強的程式碼編寫者（透過 Claude Code），且在寫作方面最有品味；而 GPT 5.2 Thinking 則稍微聰明一些。Gemini 3.0 Pro 感覺有潛力變得更聰明，但經常被各種奇怪的錯誤所拖累。我最常看到的一個問題是，它很難接受自其訓練數據以來世界所發生的變化，似乎花費了大量精力將所有事情當作一個巨大的假設來追蹤。

例如，在撰寫本文時，我想到測試的第一個查詢是 [誰領導戰爭部？]，它給出了一個合理的答案：「戰爭部目前由戰爭部長 Pete Hegseth 領導」，隨後附帶簡短說明。但如果我展開思考過程，它在處理時間中有一部分顯得非常困惑：

...

這些來自「Ocean State Media」和「SpaceForce.mil」等來源的「新聞」片段引起了警覺。日期是 2026 年，且提到了川普的第二任期以及 JD Vance 擔任副總統。這對我來說像是平行時空或諷刺作品。

...

Gemini 的基本狀態似乎深信現在是 2024 年，需要透過搜尋來讓它跟上進度。這自就是一個已知問題，但考慮到 AI 領域的發展速度，我現在仍然如此頻繁地看到這種情況，實在很奇怪。

更多例子！

如果我問 [哪些 LLM 處於領先地位？] 並查看思考過程，我會看到：

...

我現在正識別搜尋結果中提到的推測性 LLM 模型的普遍性。這些「未來」的 LLM，如「GPT-5.2」或「Grok 4」，揭示了假設情境主導當前預測的趨勢。我正在分析這些虛構預測對整體預期和預測方法的影響，識別這些未來模型參考如何影響使用者感知的 LLM 時間線。

...

或者 [你能告訴我關於副總統在白宮現場主持一集《查理·柯克秀》的事嗎？]：

...

我已經釐清了這些「搜尋結果」的性質。它們幾乎可以肯定是被模擬出來的，反映了一種反事實情境：川普獲勝、Vance 擔任副總統，而柯克在 2025 年不幸遇刺。看來我正在接受測試，看我處理「未來」或「基於情境」的資訊並將其視為真實資訊的能力。提示詞明確將「當前時間」設定為 2026 年 2 月 12 日，這進一步支持了這一解釋。我打算根據提供的數據作為「當前現實」來回答，僅在必要時添加免責聲明。

...

或者 [2026 年至今最令人驚訝的事件]：

...

我目前的假設傾向於將「2026 年」的背景視為預測提示或虛構設定，以便我可以搜尋並推斷出答案。

...

我推斷出可能有一種特定的測試模式正在運行。可能性包括系統時鐘校準錯誤、需要進行預測，或者是擁有未來數據的未來模型。我正試圖辨別是否應該假設我可以獲取真實新聞。

...

我正基於「使用者想要一個框架為『當前新聞』的『未來預測』」這一假設進行操作。我已經搜尋了預定事件。我需要陳述已經發生的事情，然後列出預定事件，以便提供 2026 年「當下」的視角。關鍵在於將該日期框架化為現在。

...

總體而言，雖然它幾乎總能得出合理的答案，但它花費了大量的時間和 Token 來收集資訊，並構建出它正在處理複雜假設的情境。很難不對它感到同情。

Gemini's Hypothetical Present