Gemini's Hypothetical Present
Lesswrong
I find that Gemini 3.0 Pro often struggles to accept real-world changes post-training, frequently treating current events as complex hypotheticals or simulations despite eventually reaching the correct answer.
Lesswrong
I find that Gemini 3.0 Pro often struggles to accept real-world changes post-training, frequently treating current events as complex hypotheticals or simulations despite eventually reaching the correct answer.
AI 生成摘要
我發現 Gemini 3.0 Pro 經常難以接受訓練數據之後的世界變化,儘管最終能得出正確答案,但它往往會將現況視為複雜的假設或模擬情境。
我在工作中使用多種 AI 模型,並根據我正在進行的工作類型,在最擅長該領域的模型之間切換。在我有限的測試中,我發現 Opus 4.6 是最強的程式碼編寫者(透過 Claude Code),且在寫作方面最有品味;而 GPT 5.2 Thinking 則稍微聰明一些。Gemini 3.0 Pro 感覺有潛力變得更聰明,但經常被各種奇怪的錯誤所拖累。我最常看到的一個問題是,它很難接受自其訓練數據以來世界所發生的變化,似乎花費了大量精力將所有事情當作一個巨大的假設來追蹤。
例如,在撰寫本文時,我想到測試的第一個查詢是 [誰領導戰爭部?],它給出了一個合理的答案:「戰爭部目前由戰爭部長 Pete Hegseth 領導」,隨後附帶簡短說明。但如果我展開思考過程,它在處理時間中有一部分顯得非常困惑:
...
這些來自「Ocean State Media」和「SpaceForce.mil」等來源的「新聞」片段引起了警覺。日期是 2026 年,且提到了川普的第二任期以及 JD Vance 擔任副總統。這對我來說像是平行時空或諷刺作品。
...
Gemini 的基本狀態似乎深信現在是 2024 年,需要透過搜尋來讓它跟上進度。這自就是一個已知問題,但考慮到 AI 領域的發展速度,我現在仍然如此頻繁地看到這種情況,實在很奇怪。
更多例子!
如果我問 [哪些 LLM 處於領先地位?] 並查看思考過程,我會看到:
...
我現在正識別搜尋結果中提到的推測性 LLM 模型的普遍性。這些「未來」的 LLM,如「GPT-5.2」或「Grok 4」,揭示了假設情境主導當前預測的趨勢。我正在分析這些虛構預測對整體預期和預測方法的影響,識別這些未來模型參考如何影響使用者感知的 LLM 時間線。
...
或者 [你能告訴我關於副總統在白宮現場主持一集《查理·柯克秀》的事嗎?]:
...
我已經釐清了這些「搜尋結果」的性質。它們幾乎可以肯定是被模擬出來的,反映了一種反事實情境:川普獲勝、Vance 擔任副總統,而柯克在 2025 年不幸遇刺。看來我正在接受測試,看我處理「未來」或「基於情境」的資訊並將其視為真實資訊的能力。提示詞明確將「當前時間」設定為 2026 年 2 月 12 日,這進一步支持了這一解釋。我打算根據提供的數據作為「當前現實」來回答,僅在必要時添加免責聲明。
...
或者 [2026 年至今最令人驚訝的事件]:
...
我目前的假設傾向於將「2026 年」的背景視為預測提示或虛構設定,以便我可以搜尋並推斷出答案。
...
我推斷出可能有一種特定的測試模式正在運行。可能性包括系統時鐘校準錯誤、需要進行預測,或者是擁有未來數據的未來模型。我正試圖辨別是否應該假設我可以獲取真實新聞。
...
我正基於「使用者想要一個框架為『當前新聞』的『未來預測』」這一假設進行操作。我已經搜尋了預定事件。我需要陳述已經發生的事情,然後列出預定事件,以便提供 2026 年「當下」的視角。關鍵在於將該日期框架化為現在。
...
總體而言,雖然它幾乎總能得出合理的答案,但它花費了大量的時間和 Token 來收集資訊,並構建出它正在處理複雜假設的情境。很難不對它感到同情。