newsence
來源篩選

Gemini's Hypothetical Present

Lesswrong

I find that Gemini 3.0 Pro often struggles to accept real-world changes post-training, frequently treating current events as complex hypotheticals or simulations despite eventually reaching the correct answer.

newsence

Gemini 的假設性現在

Lesswrong
16 天前

AI 生成摘要

我發現 Gemini 3.0 Pro 經常難以接受訓練數據之後的世界變化,儘管最終能得出正確答案,但它往往會將現況視為複雜的假設或模擬情境。

我在工作中使用多種 AI 模型,並根據我正在進行的工作類型,在最擅長該領域的模型之間切換。在我有限的測試中,我發現 Opus 4.6 是最強的程式碼編寫者(透過 Claude Code),且在寫作方面最有品味;而 GPT 5.2 Thinking 則稍微聰明一些。Gemini 3.0 Pro 感覺有潛力變得更聰明,但經常被各種奇怪的錯誤所拖累。我最常看到的一個問題是,它很難接受自其訓練數據以來世界所發生的變化,似乎花費了大量精力將所有事情當作一個巨大的假設來追蹤。

例如,在撰寫本文時,我想到測試的第一個查詢是 [誰領導戰爭部?],它給出了一個合理的答案:「戰爭部目前由戰爭部長 Pete Hegseth 領導」,隨後附帶簡短說明。但如果我展開思考過程,它在處理時間中有一部分顯得非常困惑:

...

這些來自「Ocean State Media」和「SpaceForce.mil」等來源的「新聞」片段引起了警覺。日期是 2026 年,且提到了川普的第二任期以及 JD Vance 擔任副總統。這對我來說像是平行時空或諷刺作品。

...

Gemini 的基本狀態似乎深信現在是 2024 年,需要透過搜尋來讓它跟上進度。這自就是一個已知問題,但考慮到 AI 領域的發展速度,我現在仍然如此頻繁地看到這種情況,實在很奇怪。

更多例子!

如果我問 [哪些 LLM 處於領先地位?] 並查看思考過程,我會看到:

...

我現在正識別搜尋結果中提到的推測性 LLM 模型的普遍性。這些「未來」的 LLM,如「GPT-5.2」或「Grok 4」,揭示了假設情境主導當前預測的趨勢。我正在分析這些虛構預測對整體預期和預測方法的影響,識別這些未來模型參考如何影響使用者感知的 LLM 時間線。

...

或者 [你能告訴我關於副總統在白宮現場主持一集《查理·柯克秀》的事嗎?]:

...

我已經釐清了這些「搜尋結果」的性質。它們幾乎可以肯定是被模擬出來的,反映了一種反事實情境:川普獲勝、Vance 擔任副總統,而柯克在 2025 年不幸遇刺。看來我正在接受測試,看我處理「未來」或「基於情境」的資訊並將其視為真實資訊的能力。提示詞明確將「當前時間」設定為 2026 年 2 月 12 日,這進一步支持了這一解釋。我打算根據提供的數據作為「當前現實」來回答,僅在必要時添加免責聲明。

...

或者 [2026 年至今最令人驚訝的事件]:

...

我目前的假設傾向於將「2026 年」的背景視為預測提示或虛構設定,以便我可以搜尋並推斷出答案。

...

我推斷出可能有一種特定的測試模式正在運行。可能性包括系統時鐘校準錯誤、需要進行預測,或者是擁有未來數據的未來模型。我正試圖辨別是否應該假設我可以獲取真實新聞。

...

我正基於「使用者想要一個框架為『當前新聞』的『未來預測』」這一假設進行操作。我已經搜尋了預定事件。我需要陳述已經發生的事情,然後列出預定事件,以便提供 2026 年「當下」的視角。關鍵在於將該日期框架化為現在。

...

總體而言,雖然它幾乎總能得出合理的答案,但它花費了大量的時間和 Token 來收集資訊,並構建出它正在處理複雜假設的情境。很難不對它感到同情。