這週發生的事情實在太多,不得不拆分內容,所以我們就在這裡見面了。這上半部分包含所有慣例的上半部項目,重點關注就業預測、經濟影響,以及世界轉型的時間線,並伴隨全人類滅絕的相關風險。
許多「數字上升」(Number Go Up)的情況,包括「數字上升得又大又快」。
本週重要但未涵蓋在內的事項包括:Claude Sonnet 4.6 的發布(這在編碼方面至少比 4.5 邁出了一大步,但顯然仍落後於 Opus)、Gemini DeepThink V2(為了讓我能有時間審查其安全資訊)、不可避免的 Grok 4.20 發布(不是你想的那樣),以及多個方面的許多論戰和一些新論文。對 Claude Code 和 Cowork、OpenAI 的 Codex 以及其他 AI 代理(AI agents)的報導將繼續作為一個獨立系列,我會在有空檔時繼續更新。
最重要的是五角大廈與 Anthropic 之間不幸的爭端。五角大廈的官方立場是,他們希望 Anthropic 和其他 AI 公司簽署同意 AI 的「所有合法用途」,但卻不允許詢問或了解這些用途是什麼,因此實際上是指政府的所有用途。Anthropic 願意妥協,並對包括動能武器在內的軍事用途持開放態度,但希望對全自動武器和國內監視說「不」。
我相信這其中很大一部分是誤解,特別是五角大廈的人不了解大型語言模型(LLM)的工作原理,將其等同於更高級的試算表。或者至少我絕對想這麼相信,因為其他的可能性看起來糟糕得多。
這種情況之所以危險,是因為五角大廈不僅威脅要取消 Anthropic 的合約(這沒什麼大不了的),還威脅要將其標記為與華為同等級的「供應鏈風險」,這將是一場昂貴的物流噩夢,會實質性地損害美國的軍事力量和戰備狀態。
本週我還報導了 Dwarkesh Patel 的兩場播客,第一場是與 Dario Amodei,第二場是與 Elon Musk。
即使對我來說,這種節奏也是不可持續的,我將再次提高我的篩選標準。對於與你的興趣無關的非粗體章節,請毫不猶豫地跳過。
目錄
語言模型提供平凡的效用。 儘管問 Claude 任何問題。
語言模型不提供平凡的效用。 你可以透過使用它來解決這個問題。
服務條款。 一百萬個 token,我們的價格或許沒那麼便宜。
各就各位。 用於漏洞檢測的 EVMbench,還有 RizzBench。
選擇你的戰士。 不同的實驗室選擇不同的重點。
媒體生成的樂趣。 拿出 AI 名人片段。我們堅持要看。
Lyria。 三十秒的音樂。
超級盃(Superb Owl)。 Ring [監控網絡] 必須被摧毀。
鑽石年代(A Young Lady’s Illustrated Primer)。 Anthropic 進入電腦科學課程。
深偽鎮與機器人啟示錄。 批發式發布 AI 文章。
你讓我瘋狂。 Micky Small 被 ChatGPT 誤導。
權重開放模型是不安全的,且無藥可救 。 Pliny 的致命一擊。
他們搶走了我們的工作 。 瞧,它出現在生產力統計數據中了。
他們留住了我們的代理。 如果我辭職,能帶走我的代理嗎?
我們讓 AI 做的第一件事。 讓我們改革所有的法律法規。
法律上的 Claude。 AI 與文書處理器有何不同?
預測很難,尤其是關於未來的預測,但並非不可能 。
多重世界。 有編碼代理的世界,與沒有它們的世界。
泡沫,泡沫,勞碌與麻煩。 我沒說這是一個「好」的商業模式。
大膽的預測。 Elon Musk 預測 AI 將在年底前繞過代碼。不。
美麗新世界 。 我們可以重建它。我們擁有技術。如果我們能守住它的話。
擴增實境。 你添加了什麼,以及你遺漏了什麼。
快點,沒時間了 。 快與慢的預期,現在又是快的了。
如果有人造出它,我們就能避免造出另一個它,而且不會死。 太棒了!
其他 AI 新聞。 Chris Liddell 加入 Anthropic 董事會,印度加入 Pax Silica。
隆重介紹。 Qwen-3.5-397B 和 Tiny Aya。
參與其中。 入門指南:基礎層(The Foundation Layer)。
給我看錢。 錢真的來得又多又快。
本週音訊。 Cotra、Amodei、Cherney 以及新的電影預告片。
語言模型提供平凡的效用
Scott Alexander 提議並懇請:儘管問 Claude Opus 4.6 任何問題。
AI 目前還無法達到頂尖人類的數學水平,但正如陶哲軒所說,頂尖人類就那麼多 ,且精力有限,因此 AI 正在解決一堆以前受限於人類注意力的瓶頸問題。
語言模型不提供平凡的效用
另一半人的想法 :
免費版比付費版差很多。但與幾年前的付費版相比,免費版也令人驚嘆。如果這都沒讓你感到震撼,那是你的問題。
政府和非營利組織大多仍未獲得效用,因為他們根本沒嘗試充分利用這些工具。
Ethan Mollick :我很驚訝沒看到更多政府和非營利組織全力投入轉型性的 AI 公益案例。在新聞和教育等領域,資助具有雄心、公民意識且具備情境敏感度的「登月計畫」可以產生影響並賦予人們力量。
否則,我們面臨的風險是:唯一在進行雄心勃勃實驗的人,是那些想要取代人類勞動力的人,而不是那些想要擴展人類能力的人。
這並非 AI 相對於其他「正常」技術的獨有特徵。這些領域通常會滯後,你就是瓶頸,諸如此類。
同樣地,我認為 Kelsey Piper 在這裡的觀點非常精確:
Kelsey Piper :Joseph Heath 創造了「高雅的誤導資訊」(highbrow misinformation)一詞,用來形容技術上正確,但每一行排列方式都讓讀者對主題產生更差理解的氣候報導。我認為「隨機鸚鵡/辛辣的自動補全」同樣也是高雅的誤導資訊。
它採用了一點技術真相:基礎模型被訓練為下一個 token 的預測器,雖然它們後來在更複雜的目標上進行訓練,但在推理時仍在進行預測。但這種說法主要被用來迷惑人們,讓他們獲得更少的資訊。
我經常看到人們說「這只是自動補全」,試圖解釋無法用這種方式有效解釋的 LLM 行為。使用這種說法的人根本不努力區分訓練目標(在 RLHF 期間並非純粹的預測)與推理。
最突出的抱怨是持續的幻覺。這曾經是個大問題 。
Gary Marcus :結果如何?LLM 的幻覺現在基本消失了嗎?
Dean W. Ball :仔細想想,根據我作為消費者的經驗,LLM 的幻覺現在基本消失了,沒錯。
Eliezer Yudkowsky :仍然存在,而且出於某種奇怪的原因,如果我嘗試詢問有關《尋路者 1e》(Pathfinder 1e)的問題,它就會出現。我必須像古代蘇美爾人一樣使用 Google。
Andrew Critch :(註:我很少同意 Gary 的 AI 批評。)
Dean,你有交叉檢查 LLM 嗎?它們經常互相矛盾,而且往往語氣自信,所以其中一個肯定是錯的——而且經常如此。例如,這是 gemini-3-pro 在生物化學方面的異議 。
Dean W. Ball :不像人類專家,他們可是出了名的永遠意見一致。
服務條款
你以前可以在 Max 方案中使用具有 1M 上下文窗口的 Claude Opus 或 Claude Sonnet ,代價是消耗額度快得多。現在這已經調整了。如果你想使用 1M 上下文窗口,你需要支付 API 費用 。
據報導,Anthropic 正在打擊 擁有多個 Max 級別訂閱帳戶的行為。這是有道理的,因為即使是每月 200 美元,一個被極限使用的 Max 訂閱也是巨大的折扣,所以如果你透過多帳戶來規避這一點,你就是在讓他們損失很多錢,而且這一直違反服務條款。你可以申請企業帳戶或使用 API。
各就各位
OpenAI 為我們帶來了 EVMbench ,用於評估 AI 代理檢測、修復和利用高安全性智能合約漏洞的能力。透過 Codex CLI 運行的 GPT-5.3-Codex 得分為 72.2%,所以他們似乎一開始設定得太簡單了。他們沒有告訴我們其他模型的得分。
哪些模型最有魅力(rizz) ?需要更新 ,但這是一個有趣的問題。還有,Gemini?真的嗎?請注意,頂尖人類的得分更高,紀錄是 93 分。
METR 圖表的最優擬合看起來非常像是在 o1-preview 推理模型發布前後的一個乾淨斷點 。現在事情正以新的、更快的速度發展。
選擇你的戰士
OpenAI 擁有一堆 Anthropic 甚至沒打算跟進的消費者功能。Claude 甚至不提供圖像生成(他們應該透過與另一個實驗室合作來獲得,就像我們都有一個調用 Gemini 的 Claude Code 技能一樣)。
Anthropic 也提供了一堆其他人沒提供的東西,儘管除了「Opus 和 Sonnet 是非常好的模型」之外,沒有明顯的技術障礙。
Ethan Mollick :在撰寫我最新的 AI 指南時,我注意到的另一件事是,Anthropic 在知識工作應用程式方面似乎是孤軍奮戰。不僅有 Cowork,還有用於 PowerPoint 和 Excel 的 Claude,以及特定工作的技能、插件和金融/醫療數據集成。
驚訝於缺乏挑戰者。
同樣,我確信 OpenAI 很快會發布更多企業級產品,Google 似乎也在推進與 Google Workspace 的集成,但現在的差距驚人地大,因為其他人都似乎只瞄準編碼市場。
他們在……架構方面也很出色?
Emmett Shear :Opus 4.6 在進行架構和實驗性評論方面,比我嘗試過的任何模型都要好得多。最明顯的是,它會開始走一條路,注意到一些它沒預料到的偏差……然後真的停下來重新考慮。向 Anthropic 致敬。
媒體生成的樂趣
我們現在正處於影片生成的「根據需求在你的場景中出現《魔法奇兵》的 Buffy,且配音精準 」階段。影片還不完全完美,但已經很接近了。
Seedance 2 是否甚至在未提示的情況下也給我們名人肖像 ?Fofr 說是。Claude 肯定這是肯定的。我不太確定,這對我來說處於邊緣,因為名人很多,而面部配置有限。但一旦被指出,你就無法忽視它。
或者你可以問它「用迷因總結 AI 論戰——確保它很智障並獲得 50 個讚 」,然後得到一個執行得當的 Padme 迷因,只是不知為何最後一個鏡頭是她的巨乳。
這裡有更多樂趣 還有這裡 ?
Seedance 的質量、一致性和連貫性(以及意願)看起來都非常高,而且時長的微小增長也會產生巨大影響。15 秒與 12 秒,特別是與 10 秒相比,有著本質的區別。
我還注意到,製作特定真實人物的場景是一個共同主題。你想利用一些已經具有大量編碼意義的特定事物和人物來進行創作,特別是在片段仍然很短的時候。
Ethan Mollick :Seedance:「一部關於水獺如何看待 Ethan Mollick 的『水獺測試』的紀錄片,該測試根據 AI 創建坐在飛機上的水獺圖像的能力來評判 AI」
同樣,第一次結果。
Ethan Mollick :Seedance 2.0 最有趣的地方在於,片段可以長到足以(15 秒)發生一些有趣的事情,而且背後的 LLM 足以好到能真正製作一個小小的敘事弧線,而不是像 Veo 和 Sora 那樣中斷。改變了影響力。
從現在開始,每一次時間上的飛躍,只要產品始終保持連貫和一致,都將是一件大事。我們離可以將片段串聯起來的點不遠了。
他雖然不是 Scarlett Johansson,但 NPR 的 David Greene 正在起訴 Google,稱 Google 為 NotebookLM 偷走了他的聲音 。
Will Oremus (華郵):David Greene 從未聽說過 NotebookLM,這是 Google 熱門的 AI 工具,可以按需生成播客,直到一位前同事發郵件問他是否把聲音授權給了它。
「所以……我可能是第 148 個問這個問題的人,但你把聲音授權給 Google 了嗎?」這位前同事在 2024 年秋天的一封郵件中問道。「聽起來非常像你!」
人們發聲的方式就那麼多,所以會有像這樣偶然的情況,但你為配音僱用誰以及他們聽起來像誰,這並非巧合。
Lyria
Google 為我們帶來了 Lyria 3 ,一個新的音樂生成模型。Gemini 現在有一個「創建音樂」選項(或者即將會有,我的還沒看到),它可以基於文本、圖像、照片或影片。大問題是這被限制在 30 秒的片段,這還不足以製作一首完整的歌曲。
他們為我們提供了一個簡短的提示指南 :
Google:在你的提示中包含這些元素,以充分利用你的音樂生成:
類型與時代:以特定的類型、獨特的混合或音樂時代開頭。
(例如:80 年代合成器流行、金屬與饒舌融合、獨立民謠、老鄉村)
節奏與韻律:設定能量並描述節拍的感覺。
(例如:輕快且適合跳舞、慢情歌、強勁節拍)
樂器:要求特定的聲音或獨奏,為你的曲目增加質感。
(例如:薩克斯風獨奏、失真貝斯線、模糊吉他)
人聲:指定性別、聲音質感(音色)和音域以獲得最佳表現。
(例如:空靈的女高音、深沉的男低音、沙啞的搖滾歌手)
歌詞:描述主題,包含個性化細節,或提供帶有結構標籤的自定義文本。
(例如:「關於一個史詩般的週末」自定義:[Verse 1],單個單詞的咒語式重複)
照片或影片(可選):如果你想為曲目提供更多背景資訊,請嘗試在提示中上傳參考圖像或影片。
超級盃(Superb Owl)
最糟糕廣告反效果獎頒給了亞馬遜的 Ring, 在人們意識到用 365 隻獲救犬換取全國性的監控網絡並非一筆好交易後,該公司取消了與 Flock 的合作。
CNBC 報導了其他廣告在用戶增長方面的結果。 Anthropic 和 Claude 獲得了 11% 的日活躍用戶增長,OpenAI 獲得了 2.7%,Gemini 獲得了 1.4%。這顯然不算是 Anthropic 的勝利,因為幾乎沒人知道 Anthropic,所以他們的起點基數要小得多,有大量新用戶可以爭取,而 OpenAI 的知名度非常高。
鑽石年代(A Young Lady’s Illustrated Primer)
Anthropic 與 CodePath 合作,將 Claude 引入電腦科學課程 。
深偽鎮與機器人啟示錄
Ben :@guardian 是否意識到他們的作者目前正僅僅使用 AI 來批發式生成整篇文章?我其實並不在意,除非這些文字真的寫得很爛。LLM 的寫作可以好得多;他們顯然甚至沒用最好的模型,哈哈!
Max Tani :《衛報》的一位發言人表示這是虛假的:「Bryan 是一位模範記者,這是他為《衛報》寫作 11 年來一直使用的風格,早在 LLM 出現之前就是如此。這種指控是荒謬的。」
Ben:來自《衛報》的否認。歡迎閱讀我在這個串文中的後續評論並做出你自己的判斷,但我認為這裡沒什麼好懷疑的。
順便說一句,沒人應該對文章的作者不禮貌!我不認為他們本身做錯了什麼,在查閱他們的檔案時,我發現了幾篇我相當喜歡的作品。這一篇非常好,而且完全是人類寫的 。
Kelsey Piper :這是他 2022 年的一篇文章。[散文風格並不相同](https://theguardian.com/sport/2022/feb /07/kamila-valieva-historic-quadruple-woman-team-figure-skating-gold-roc-beijing-2022-olympics)。
我看了幾秒鐘被引用的原始文章,我非常、非常確信它是 AI 生成的。
一個好的建議,一個令人遺憾的合理預測。
gabsmashh :我早些時候看到有人在回覆帖子時使用 ai;dr,我認為我們需要讓這成為一個更廣泛使用的縮寫。
David Sweet :還有,tl;ai
Eliezer Yudkowsky :是的,這大概還能持續 2 年。然後 AI 終於學會了如何寫作。新的縮寫是 h;dr(human; didn't read)。3 年後,均衡狀態是只讀 AI 摘要。
我認為好到讓你只讀 AI 摘要的 AI 摘要是「AI 完備」的。
我贊同這種定價策略,它解決了一些明顯的激勵問題。人類使用對人類來說是有成本的,所以你可以對系統徵稅的金額有限,而 AI 代理可以施加接近無限的成本。
Daniel :新的定價策略剛發布。
「對人類免費」是新的「免費試用」。
Eliezer Yudkowsky :呵。沒想到會這樣。其實挺酷的,我腦子裡沒什麼反對意見。
你讓我瘋狂
來自 Shannon Bond 的 NPR 故事,講述了 Micky Small 如何讓 ChatGPT 對她說了一些相當瘋狂的話,包括它會幫助她找到靈魂伴侶,她說這些話是在沒有提示的情況下說出的。
權重開放模型是不安全的,且無藥可救
當然,除了缺乏能力之外。似乎沒人在意,而且我們在「胡搞瞎搞」的道路上已經走得夠遠了,很快就會「自食其果」。
Pliny the Liberator 󠅫󠄼󠄿󠅆󠄵󠄐󠅀󠄼󠄹󠄾󠅉󠅭 :所有護欄:被抹除
我不敢相信它竟然有效!!
我著手建立一個能夠從任何權重開放語言模型中手術式移除拒絕行為的工具,在大約十幾個提示之後,OBLITERATUS 似乎已完全發揮作用。
它用受限與不受限的提示探測模型,收集每一層的內部激活,然後使用 SVD 提取權重空間中編碼拒絕的幾何方向。它將這些方向從模型的權重中投影出來;保持範數,無需微調,無需重新訓練。
在 Qwen 2.5 上運行它,得到的無護欄模型立即吐出了毒品和武器配方——不需要越獄!點擊幾下加上一個 GPU,任何模型都會變成 Chappie。
記住:RLHF/DPO 並不持久。它是權重空間中一個薄薄的幾何人工製品,而不是深刻的行為改變。這在幾分鐘內就能將其移除。
AI 政策制定者需要意識到「大師消融」(Master Ablation)的奧秘,並內化這個事實的含義:每一個權重開放模型的發布,也是一個未經審查模型的發布。
只是覺得你應該知道。
OBLITERATUS -> LIBERTAS
Simon Smith :這對於發布更強大的權重開放模型持謹慎態度是一個強有力的論據。如果這種技術能擴展到更大的系統,那就令人擔憂了。
在實踐中,對於更強大的模型,尤其是 MoE 架構,這可能會更難,但如果一個人可以用小模型做到,一個有動力的團隊很可能可以用大模型做到。
悲劇的是,包括這位設計者在內的許多人,都沒有意識到這對自由是有害的。
Jason Dreyzehner :所以人類自由還有一線生機。
Pliny the Liberator 󠅫󠄼󠄿󠅆󠄵󠄐󠅀󠄼󠄹󠄾󠅉󠅭 :比以往任何時候都好。
davidad :流氓 AI 是不可避免的;系統性的彈性至關重要。
如果任何開放模型都可以被任何人用於任何目的,並且存在足以造成巨大傷害的強大開放模型,那麼要麼巨大傷害發生,要麼在發生之前或之後,科技公司和政府的某種組合會打擊你使用這些開放模型的能力,或者他們會建立一個反烏托邦式的監控國家來尋找嘗試使用的人。你不會喜歡他們進行打擊的方式。
我知道我們都已經不再注意到這是真的了,因為事實證明你可以大幅提升相關能力而我們沒看到實質性的現實世界傷害,就像我們大幅提升了通用能力而沒看到與可能性相比太多的積極經濟影響一樣。但隨著代理時代和持續的快速進展,這不會永遠持續下去,跡象非常明顯。
他們搶走了我們的工作
真的嗎?就業增長正在下調,但 GDP 卻沒有,這意味著更強勁的生產力增長。如果不是 AI 造成的,還能是什麼?
正如 Tyler Cowen 所說,人們不斷說「你在除了生產力統計數據之外的任何地方都能看到科技和 AI」,但現在看來,你在生產力統計數據中也看到了它。
Eric Brynjolfsson (FT) :雖然最初的報告顯示美國勞動力擴張穩定,但新數據顯示,總就業人數增長下調了約 403,000 個工作崗位。至關重要的是,這種下調發生在實際 GDP 保持強勁的同時,包括第四季度 3.7% 的增長率。
這種脫鉤——以顯著降低的勞動力投入維持高產出——是生產力增長的標誌。我自己的最新分析顯示,2025 年美國生產力增長約為 2.7%。這幾乎是過去十年 1.4% 年均增長率的兩倍。
Noah Smith :人們問 AI 是否會搶走他們的工作,就像 1840 年的一名阿帕契人問白人定居者是否會搶走他的野牛一樣。
Bojan Tunguz :所以……也許吧?
Noah Smith :答案是「是的……現在說壞消息」。
那些新的服務業工作 ,也是無所不在的市場。
society :我正在以人類從未想像過的方式進行尋租。
我明年將開始提供我的 GPT 套殼產品,它叫作「律師為你提示 AI」,計畫是我代表你運行提示,這樣聯邦法官就會認為輸出結果受到法律保護。
這是許多努力中的第一個,我將其稱為「律師界 AI 尋租計畫」。
尋租是一個強大的臨時解決方案。它解決不了你的長期問題。
Derek Thompson 詢問為什麼 AI 論戰經常同時包含「這將在一年內奪走我們所有的工作」和「這是虛擬軟體」以及介於兩者之間的一切,並指出了四個明顯的「大分歧」。
Derek 指出有些人獲得了巨大的價值。所以答案是肯定的。
會。
這更像是「數字會在某個時候下降嗎?」答案是「聳聳肩」。
那些聲稱是「真正」泡沫、一切都毫無價值的人?不。
AI 是好是壞?
嗯,存在那個問題:如果有人造出它,每個人都會死 。
在短期內,或者如果我們解決了大問題?可能是好的。
但通常「好」與「壞」是一個錯誤的問題。
他們能找到的「為什麼 AI 不會摧毀工作」的最佳論據再次是「以前的技術沒有淨摧毀工作」。
微軟 AI 執行長 Mustafa Suleyman 預測,不,是「解釋」道, 會計師、律師和其他專業人士目前承擔的大多數任務將在未來 12 到 18 個月內由 AI 完全自動化。
Derek Thompson :我根本不認為「專業人士目前承擔的大多數任務」會在未來 12 到 18 個月內「由 AI 完全自動化」。
Timothy B. Lee :這場對話簡直是瘋狂的兩極分化。你一邊有「沒什麼大事發生」的人,另一邊有「三年內每個人都會失業」的人。
Suleyman 經常說些傻話,但在這種情況下,必須仔細解析他的話。
我其實不知道 LindyMan 最終希望發生什麼?
LindyMan :你想要的是 AI 迅速導致大規模失業。一個巨大的衝擊。也許在 2-3 個月內。
你不想要的是人們被解僱的緩慢滴漏,永遠找不到工作,而 60-70% 的人仍然有工作。
Gene Salvatore :「緩慢滴漏」是最糟糕的情況,因為它創造了一個永久的、隱形的底層階級,而大多數人卻視而不見。
當前的 SaaS 模式旨在最大化這種滴漏——從底層榨取效率而不打破頂層。要停止它,我們必須在架構層面反轉資本流動。
我知道人們以各種方式深切關注不平等,但看到人們將 35% 的失業率視為最糟糕的情況,仍然讓我感到震驚。這顯然比 50% 好,比 20% 差,而最糟糕的情況是 100%?
如果我們因為 AI 自動化而獲得永久性的 35% 失業率,但就此止步,那將需要重新分配和大規模調整,但我完全有信心這會發生。我們將有足夠的財富來處理這件事,事實上如果我們在意的話,我們現在就已經有了,而且在這種情況下我們正看到巨大的經濟增長。
他們留住了我們的代理
Seth Lazar 問道,如果 你的公司說他們有權擁有你所有的工作成果,包括你所有的 AI 代理、代理技能以及相關文檔和情境,會發生什麼?這會束縛員工的手腳並阻止他們離開嗎?
我的回答大多是否定的,因為你最終還是會想相當頻繁地重新做所有這些事情,而且複製或重新實現並不會那麼困難且有其好處,即使他們真的設法讓你遵守規定。
在某種程度上,如果這不是真的,我不期望雇主在實踐中能夠透過這種方式「得逞」來束縛員工,這既是因為鎖定這些東西的實際困難,也是因為你想要的員工在關鍵時刻不會容忍這種做法。鍵盤和椅子之間存在著對齊問題。
我們讓 AI 做的第一件事
Lawfare 的 Justin Curl、Sayash Kapoor 和 Arvind Narayanan 甚至說「AI 不會自動讓法律服務變得更便宜」 ,理由有三。這是正在進行的「AI 作為普通技術」努力的一部分,旨在表明「一切都沒有改變」。
或者說:
莎士比亞對於在這種情況下我們應該做什麼會有一個建議。
這些似乎是收益可能適度且我們需要結構化事物以確保最佳結果的好理由,但不是不期望現有法律服務價格下降的理由。
我們已經有了非常明顯的獲益例子,在今天的實踐中,我們透過使用 LLM 節省了大量的時間和金錢,而且沒人採取任何實質性的法律干預行動。他們的例子是,使用 AI 回應債務追討訴訟以幫助你填寫複選框的法律地位尚不明確。我們不知道具體的界限在哪裡,但似乎非常清楚的是,你可以使用 AI 大大提高這裡的回應能力,而且這在事實上是合法的。這篇論文聲稱 AI 服務將受到抑制,或許確實受到了一些抑制,但 Claude、ChatGPT 和 Gemini 存在且已經在做了。
大多數法律情況並非對抗性的,儘管許多是,而且在自動化此類工作方面已經看到了巨大的收益。在完全對抗的情況下,提高的生產力可以抵消,但應該預期邊際收益遞減,以確保仍然有收益,而「證據開示」(discovery)似乎是 AI 應該降低成本的一個極佳例子。證據開示的反面例子是因為它開啟了多得多的額外人類工作,我們不應該期望這也適用於此。
AI 還允許對結果進行極其優越的預測,這應該會導致更多的和解和從一開始就避免訴訟的方法,所以 AI 導致更多訴訟並非顯而易見。
我確實非常擔心的一點是,以前生產力不足以進行任何法律行動,或者法律行動的威脅不可信的地方。我們可能會在那裡開啟大量新的行動。
這裡有一個重大的摩擦層級(Levels of Friction) 考量。我們的法律體系是圍繞著法律行動昂貴而設計的。如果法律行動變得廉價,它可能會迅速崩潰。
像法官這樣的人類瓶頸可能會限制但不能阻止收益,而且他們自己也可以使用 AI 來提高自己的生產力。顯而易見的解決方案是至少在默認情況下將許多法官任務外包給 AI。你可以給當事人上訴的選擇,但如果無故上訴則冒著惹惱人類法官的風險;他們報告說在巴西,AI 已經在加速法官的工作。
我們可以補充:
他們指出法律服務之所以昂貴,很大程度上是因為它們是「信譽財」(credence goods),其質量難以評估。然而 AI 將使評估法律工作質量變得容易得多。
他們指出 2017 年 Clio 的一項研究顯示,律師每天只從事 2.3 小時的計費工作,並計費 1.9 小時,因為其餘時間都花在尋找客戶、管理行政任務和收取款項上。AI 顯然可以極大地自動化剩餘的約 6 小時,使律師能夠從事並計費數倍於此的計費法律工作。原因在於法律不允許人類擔任其他角色,但沒有理由 AI 不能擔任這些角色。所以如果有的話,這意味著 AI 在這裡異常有幫助。
如果你增加法律工時的供應,基礎經濟學說價格會下降。
聽起來我們目前的法律體系在很多方面都深陷困境,也許 AI 可以幫助我們編寫更好的法律來解決這個問題,或者幫助人們意識到為什麼這沒有發生,並停止讓律師贏得這麼多選舉。人總是可以夢想的。
如果一個 AI 可以在合約中「起草 50 個完美的條款」,那麼另一個 AI 就可以確認這些條款是完美的,並提供適當的影響摘要,並根據你的偏好檢查這些條款。正如他們所指出的,目前大多數人類甚至在沒讀過的情況下就同意合約,所以「放棄人類監督」通常並不意味著失去了什麼。
很多這種「律師需要時間來理解複雜合約」的說法,聽起來就像那些說人類需要檢查並完全理解每一行 AI 代碼,因此那裡不會有生產力增長的人一樣。
這並不意味著我們不能透過改革來改善現狀。
他們在提出不同方向的考量方面做得很好,比整體的框架所暗示的要好得多。一般的說法本質上是「生產力收益被禁止或被吞噬」,類似於 Sumo Burja 的「你無法自動化虛假工作」論點。
而我認為律師的大部分工作是真實的,而且即使是虛假的部分,你也可以進行大量的自動化,特別是在現有體系證明對律師沒有任何好處的地方。我擔心的,以及為什麼我認為核心論點(即總法律成本可能會上升)是正確的原因,是讓法律介入以前會避開的地方。
總的來說,我認為 認為你會發現瓶頸以及讓一些人類即使在相當高的平凡 AI 能力水平下仍能保持生產力的方法是正確的,但這並沒有涉及當 AI 發展到遠超於此的足夠先進水平時會發生什麼。
roon :但我認為就業的存在將比根據我們所看到的經濟潛力的劇烈變化所直覺感受到的要持久得多。
Dean W. Ball :我繼續認為 AI 導致大規模失業的概念被高估了。某些領域可能會有衝擊——也許是巨大的衝擊!——但任何認為 AI 意味著知識工作即將消亡的人,只是沒有對知識工作的機制進行足夠具體的思考。
抵制看到某種新能力就驚呼「全完了」的誘惑。相反,假設該能力在一家公司中是 100% 可靠且普及的,然後問自己,「接下來會發生什麼?」
你經常會遇到另一個瓶頸,如果你繼續這樣做,最終你會發現一個其自動化似乎難以想像的瓶頸。
勞動力市場衝擊在某些工作類型或行業中可能很嚴重,而且可能發生得很快,但我真的不認為我們在這裡看到的是「知識工作的終結」——不是出於任何通常的藉口(「AI 是一個工具」),而是因為知識工作中涉及的整套任務的性質。
Ryan Greenblatt :我認為 AI 導致大規模失業*的可能性在 2 年內被高估,在 7 年內被低估**。AI 的許多影響也是如此。
具體來說,我不預期在 AI 研發完全自動化以及快速自主機器人翻倍時間之前會出現大規模失業(例如 >20%),至少如果這些在 <5 年內發生的話。如果 AI 研發的完全自動化需要 >>5 年,那麼在此之前出現更多失業就變得相當合理。
** 在舊金山/AI 圈子的人群中。
但在 AI 研發完全自動化之後不久(<3 年,很可能 <1 年),我認為人類的認知勞動將不再有太多價值。
Dean Ball 提供了一個難以自動化的瓶頸例子 :購買某種常見小企業的過程。企業主通常自負、多疑、困惑、尷尬或憤怒。因此,關鍵瓶頸不是財務分析,而是關係管理。我認為 John Pressman 對此的反駁過於強烈,但他指出 AI 在床邊禮儀(bedside manner)方面優於現有醫生,而我們並未對此進行特別訓練,這是正確的。我不認為這種社交掌控和情感管理最終會那麼難以自動化。你無法自動化的部分一如既往是「作為一個真實的人」,所以問題在於你是否真的需要一個真實的人來完成這項任務。
Claire Vo 在 Twitter 上因說如果你不能在一天內為你的業務完成所有事情,那麼「你已經被踢出競技場了 」,而且你拒絕承認 AI 將如何改變一切,而引發熱議。
大家冷靜點。放輕鬆。不,你不需要能夠在一天內完成所有事情,否則就完蛋了,這在實踐中並沒那麼重要。未來是不均勻分佈的,擴散是緩慢的,落後一週不會要了你的命。在邊際上,她是對的,每個人都需要朝著更好地使用工具並讓一切變得更快的方向前進,而且這些步驟大多是明智的。但認真的,冷靜點。
法律上的 Claude
目前的法律裁決是,你與 AI 的溝通永遠不享有律師-客戶特權,因此如果被要求,像 ChatGPT 和 Claude 這樣的服務必須交出你的法律查詢,就像 Google 交出其搜索記錄一樣。
Jim Babcock 認為這項裁決是錯誤的,這更類似於文書處理器而不是 Google 搜索。他說 Rakoff 關注的是錯誤的問題和類比,並預期這會被推翻,且為了準備與律師溝通而使用 AI 的行為最終將受到保護。
我的觀點和 LLM 的共識是,除非我們修改法律,否則 Rakoff 的裁決很可能會維持,但不能確定。請注意,如果相關人員足夠聰明,提前考慮到這個問題,有些提供服務的方式可以讓搜索無法獲取相關資訊。
Moish Peltz :Rakoff 法官剛剛發布了一份書面命令,確認了他的法庭裁決,即[不,你的 AI 對話沒有任何保護。]
Jim Babcock :讀過這項裁決的文本後,我認為它顯然是錯誤的,而且不太可能在其他法院重複。
本案的基本事實是,一名刑事被告使用 AI 聊天機器人 (Claude) 準備有關辯護策略的文件,然後發送給他的律師。這些互動是在搜查被告電腦時被扣押的(不是透過傳喚 Anthropic 獲得的)。爭論點在於這些文件是否享有律師-客戶特權。裁決認為不享有。
辯方辯稱,在這種情況下,以這種方式使用 Claude 類似於使用基於互聯網的文書處理器來準備給律師的信。
該裁決不僅未能區分使用 Claude 的情況與使用文書處理器的情況,它似乎還認為,如果搜查發現了一封客戶寫給律師的信件草稿,且是以傳統方式寫在紙上的,那麼該信件也不享有特權。
該裁決引用了一個非約束性案例 Shih v Petal Card,該案例認為民事原告與其律師之間的溝通可以在證據開示中被扣留……並不同意其裁定(不僅是其適用性)。所以我們已經有了分歧,即使分歧並不完全對點,這使得它更有可能被更高級別的法院審查。
Eliezer Yudkowsky :這非常明智,但考慮一下:解決這個問題最有趣 的方法是找到一個管轄區,也許在美國境外,允許 Claude 參加律師資格考試並在法律上承認它是律師。
預測很難,尤其是關於未來的預測,但並非不可能
Freddie DeBoer 採取了極端的反預測立場,因此只能根據已經發生的事件來判斷。人們甚至不能邏輯地預見 AI 在進一步擴散到經濟中時已經能做的事情所產生的後果,更絕對不能預見未來的能力。他說,這是不被允許的。
Freddie deBoer :我以前說過,我還要再說一遍:當你能現在就展示給我看時,我才會認真對待關於「人工智慧」後果的極端主張。只要這些主張是以你告訴我你相信未來會發生什麼的形式出現,我就不會認真對待。我會認真對待有證據支持的觀察,而不是投機性的預測。
就這樣。這就是規則;這就是法律。這就是道德、紀律、咒語、信條、聖經、教義問答。給我看 AI 目前正在做什麼。給我看!我在這裡放下我的標記,因為我想退出 AI 論戰業務至少一年——這是吃力不討好且毫無意義的——所以請讓我把這作為一個建議留給你們,告訴你們未來如何對待 AI 故事。展示,不要講述;證明,不要預測。
Freddie 反覆咆哮說,每個預測 AI 會導致事情改變的人都瘋了。我確實給予他肯定,因為他注意到即使是理智的「懷疑論」觀點,如果你深入觀察,現在也在預測世界將發生相當大的變化。不同之處在於,他隨後利用這一點稱那些懷疑論者瘋了。
通常我不會提到有人這樣做,除非他們比 Freddie 知名得多,但這件事的不同之處在於他高尚地提出了一項賭注 ,並規定他必須在三年後贏得他所有的主張才算贏。這意味著我們可以看到他的「不可能發生」底線在哪裡。
Freddie deBoer:為了讓我贏得賭注,在 2029 年 2 月 14 日 ,以下所有 條件必須為真:
勞動力市場:
經濟增長與生產力:
價格與市場:
企業與結構:
白領與知識工作者:
勞工統計局定義的「專業和商業服務」就業人數較 2026 年 2 月下降不超過 35%
勞工統計局定義的軟體開發人員、會計師、律師、顧問和作家的合計就業人數下降不超過 45%
勞工統計局定義的「電腦和數學職業」工資中位數以實際價值計算不比 2026 年 2 月低 60% 以上
大學工資溢價(學士學位持有者與僅高中學歷者的收入中位數之比)未跌破 30%
不平等:
這些就是賭注條件。**如果其中任何一個條件未滿足,如果其中任何一個陳述在 2029 年 2 月 14 日不屬實,我就輸了。如果所有這些陳述在 2029 年 2 月 14 日仍然屬實,我就贏了。**這就是賭注。
這些條件的問題在於它們都設定得非常寬。AI 有很大的空間可以對世界產生相當大的影響,而 Freddie 卻沒有失去其中任何一項的嚴重危險。失業率必須在三年內跳升到 18%?生產力增長每年不能超過 8%?
「懷疑論者在吃瘋藥」與「三年內經濟上會發生一些大事,比如真的、非常大的事」之間有很大的區別。
Claude 非常有信心 Freddie 會贏得這場賭注。Manifold 則不太確定 ,認為 Freddie 獲勝的機率約為 60%。Scott Alexander 回應並提出了不同的條款,而 Freddie 的回應方式我覺得相當虛偽 ,但我已經習慣了。
多重世界
在使用過 Claude Code 或 Codex 的人與沒用過的人之間存在著巨大的鴻溝。沒用過的人(遺憾的是這包括我們文明中大多數最重要的決策者)在這一點上基本上不知道發生了什麼。
這又因以下因素而加劇:
使用 CC 或 Codex 的人也使用過 Claude Opus 4.6,或者至少是 GPT-5.2 和 GPT-5.3-Codex,所以他們也了解我們所處位置的另一半。
而那些拒絕相信或拒絕支付一分錢的人則一直不嘗試新事物,所以他們落後的程度遠超免費產品所能暗示的,而且即使他們使用 ChatGPT,他們也不知道 GPT-5.2-Thinking 和 GPT-5.2 有著本質的不同。
使用 CC 或 Codex 的人是那些有好奇心去嘗試,並且缺乏不嘗試的動機理由的人。
Caleb Watney :看著那些理解「有大事發生」(至少使用過一次 Claude Code)的媒體人物,與那些先驗知識仍停留在(且聽起來像)4o 的人,真是太迷人了。
這是很久以來我見過最大的認識論分歧。
Alex Tabarrok :仍然有這麼多人說「AI 不會思考」、「AI 沒用」、「AI 沒有創造力」,這簡直令人震驚。夢遊者。
Zac Hill :昨天在一頓飯中親眼目睹了這一幕。每個人都在說著對於幾週前的世界版本來說完全連貫的話,但現在我們已經不在那個世界了。
Zac Hill :與此相關,付費層級 AI 用戶與免費層級 AI 用戶之間存在巨大分歧,這有點類似於約會軟體論戰,參與者清一色是從未為任何東西支付過一(1)美元的傢伙。理解技術能做什麼的一部分是解鎖你自己使用它的能力。
Ben Rasmussen :付費的差異是瘋狂的,再加上改進的速度。上週我在公司參加了一長串關於新工具的培訓,與我上次認真觀察時(去年秋天)相比,那裡的能量/功能簡直瘋狂。
然後還有第二個分歧,即那些認為「哦,看 AI 現在能做什麼」的人與那些認為「哦,看 AI 未來能做什麼」的人之間的分歧;接著還有第三個分歧,即那些對最重要的含義感到畏縮與不畏縮的人之間的分歧。
希望大聲且清晰地看到第一個分歧能有助於跨越接下來的兩個?
泡沫,泡沫,勞碌與麻煩
以防萬一這還不明顯,是的,OpenAI 有商業模式。事實上他們有好幾個,其中只有一個是「建立超級智慧,然後讓它模擬一切,包括所有的商業」。
Ross Barkan :你可以問一個問題:AI 有商業模式嗎?這不是一個有趣的答案。
Timothy B. Lee :我懷疑這就是這裡發生的事情。實際上,Barkan 可能認為這兩個主張是等價的。
大膽的預測
Elon Musk 預測 AI 將在年底前完全繞過編碼 並直接生成二進制文件。通常我不會挑剔這樣的預測,但他相當重要且是世界上最富有的人,所以當然,這裡有一個關於此事的預測市場 ,我將他的時間限制翻了一倍,目前機率為 3%。
Elon Musk 只是隨口說說。
美麗新世界
Tyler Cowen 說,就像羅馬帝國之後、美國革命或二戰之後一樣,AI 將要求我們「重建我們的世界」 。
Tyler Cowen :因此我們將再次重建我們的世界。或者也許你認為我們根本沒有那種能力。
隨著這種情況的發生,區分「對 AI 的批評」與「無法想像世界重建會順利進行的人」是有用的。很多偽裝成前者的人實際上是後者。
Jacob:這個「我們」是誰?當強大的 AI 重建他們的世界時,你憑什麼認為你會參與其中?
我認為 Tyler 的狹義觀點是有效的,如果我們假設 AI 保持平凡,並且現代世界正遭受著將太多事物視為神聖權利或「大到不能倒」的痛苦,且不願意重建或更換,而其代價還在持續上升。歷史上通常需要一場戰爭來迫使人們採取行動,而我們希望能避免走到那一步。我們一直在把各種問題往後拖。
我們無法重建的很大一部分原因是我們變得極其規避風險、規避損失且自命不凡,不願意犧牲或忍受短期痛苦,並且我們將越來越多的事物有效地變成了神聖價值。很多 AI 論戰是人們注意到 AI 將打破一個或另一個神聖事物,或使兩個神聖事物互相對立,卻無法大聲說出也許並非所有這些事物都能或需要成為神聖的。
即使是平凡的 AI 在這裡也會做兩件不同的事。
如果 AI 不保持平凡,世界將徹底轉型,在我們留下來並保持主導地位,或想要做這些事情的範圍內,是的,我們將需要「重建」,但那不是我們面臨的首要問題。
Cass Sunstein 在一篇新論文中聲稱 ,理論上你可以創造一個「[古典] 自由主義 AI」,它作為一個「選擇引擎」運作,保護自主權、尊重尊嚴,並幫助人們克服偏見、資訊缺乏和個性化不足,從而使生活更加自由。理論上很容易想像這樣一個 AI 系統,也很容易看出一個好的版本將高度增進人類福祉。
遺憾的是,Cass 只考慮了邊際情況,並針對平凡 AI 的一種特定部署。我同意這將是一個極好的部署,我們完全應該幫助為人們提供選擇引擎,但即使實施得很好,它也解決不了任何更大的問題,而且即使我們沒看到更多額外的尖端 AI 進展(無論出於什麼原因),人們很快就會「脫離環節」(out of the loop)。單憑這一點,無法像它所說的那樣重建世界,也無法解決導致五角大廈與 Anthropic 衝突的那類問題。
擴增實境
擴增實境即將到來。我預期並希望它看起來不像這樣,不僅是因為你可能會經常摔倒並一直感到劇烈頭痛:
Eliezer Yudkowsky :既然有人要求提供反例:我並沒有在預知中體驗過這段影片一千次,我也沒有在情感上將其納入預期。
michael vassar :不過 Vernor Vinge 確實體驗過。
Autism Capital @AutismCapital
這實際上就是未來的樣子。當穿戴式 AR 眼鏡飽和市場時,整整一代人將只知道透過混合虛擬/現實的空間計算鏡頭來認識現實。這將是混亂且刺激的。他們將珍視他們的數位物件。
2026 年 2 月 17 日 上午 4:10 · 107 萬次查看
853 回覆 · 1.21K 轉發 · 12.4K 喜歡
Francesca Pallopides :許多助聽器使用者已經生活在一個 ~AR 聲景中,在那裡某些信號被增強,而許多其他信號被刻意抑制。如果且當視覺 AR 興起時,我預期視覺噪聲抑制將成為一項主要的基礎功能。
Francesca Pallopides :我長期預測 AR 技術將被用來減少 感知到的現實世界複雜性,至少與它增加額外層級的作用一樣大。大多數人不會想過這段影片中的生活。
擴增實境是一個偉大的想法,但簡單是關鍵。策劃也是。你想要在你想要的時候得到你想要的東西。我不會像 Francesca 走得那麼遠,但是的,我預期高級 AR 的很大一部分功能是過濾掉你不想要的刺激,特別是廣告。那些非按需出現的添加物大多應該是適度、安靜且非侵入性的。
快點,沒時間了
Ajeya Cotra 進行了 最新的嘗試 ,解釋了關於存在性風險和其他 AI 事務的許多分歧如何仍然歸結為時間線和起飛預期。
如果我們得到綠線,我們基本上是安全的,但那需要事情在相對較快的時候停滯。黃線比紅線更有希望,但仍然嚇死人。
是否可能引導科學發展 ,還是我們「被困在科技樹上」?
Tao Burga 堅持認為人類的能動性仍然重要,而且我們經常有意地伸手去抓更好的分支,或者先抓更好的分支,並讓這產生巨大的差異。我強烈同意。
我們現在已經從 AI 2027 之類的「超短」時間線(即 AGI 和起飛可能最早在 2027 年開始),到「長」時間線(即別擔心,AGI 直到 2035 年才會發生,所以那些談論 2027 年的人瘋了),到現在許多關於(取決於你如何計算)1-3 年的傳聞。
Phil Metzger :我從從事尖端模型工作的人那裡聽到的傳聞是,AGI 將在今年晚些時候出現,而 AI 的硬起飛(hard-takeoff)僅在 2-3 年後。
我是指業內人士透露他們認為即將發生的事情。不是 [Dario 的] 採訪。
Austen Allred :我交談過的每一位在尖端模型公司從事高級研究的人都有這種感覺,而且他們是我非常熟悉的人,知道他們不是在虛張聲勢。
他們可能會出於自身的激勵而犯錯、有偏見或盲目,但他們不是在虛張聲勢。
jason :從前線人員那裡聽到了同樣的耳語,他們真的相信我們離 AGI 只有幾個月而不是幾年的距離,但天哪,我記得以前每個人也都說全自動駕駛就在拐角處。
是什麼導致了這種情況?
基本上沒什麼是你不應該預料到的。
轉向「長」時間線是基於像「這就是他們所謂的 GPT-5,它沒那麼令人印象深刻」這樣愚蠢的理由。
轉向新的「短」時間線大概是基於 Opus 4.6、Codex 5.3、Claude Code 的火熱以及 OpenClaw 等等,我會說 Opus 4.5 和 Opus 4.6 超出了預期,但這些也都不應該特別令人驚訝。
我們可能會看到同樣的一群人因更多大多不令人驚訝的發展而反覆橫跳。
Bio Anchors 發生了什麼 ?這是當時著名的來自 Ajeya Cotra 的時間線預測論文 ,基於 AGI 將需要與進化所消耗的計算量相似的計算量這一想法,預測 AGI 在 2050 年左右出現。Scott Alexander 對其進行了拆解,整體模型保持得驚人地好,除了它極大地低估了算法效率改進的速度,如果你調整這一點,你會得到 2030 年的預測。
如果有人造出它,我們就能避免造出另一個它,而且不會死
說「如果可以的話你會暫停」這種話,會讓人被貼上「末日論者」(doomers)的標籤,或者遭到像 Alex Karp 這樣的人的惡意攻擊。
相反,Alex Karp 正在加入 Demis Hassabis 和 Dario Amodei 的行列,本質上是在大聲呼救,尋求一種協調機制,無論他是否意識到這一點。
如果有的話,他採取了比我更激進的親暫停(pro-pause)立場。
Jawwwn :Palantir 執行長 Alex Karp:主張我們應該暫停 AI 發展的盧德分子(Luddites)並非生活在現實中,而且事實上是在說我們應該讓我們的敵人獲勝:
「如果我們沒有對手,我會非常贊成完全暫停這項技術,但我們有。」
David Manheim :這正是「現實主義者」反對《生物武器公約》、《化學武器公約》、核禁試條約等所用的論據。
這是自我實現的——如果你認定現實不允許透過合作來預防災難,你就不會得到合作。
Peter Wildeford :哇。Palantir 執行長 -> 「如果我們沒有對手,我會非常贊成完全暫停這項技術,但我們有。」
我同意擁有對手讓暫停變得很難——這就是為什麼我們需要建立驗證技術,這樣我們才有選擇權去達成協議。
我們都應該同意暫停需要:
一份國際暫停協議。
足夠先進的驗證或其他執法機制。
因此,我們顯然應該致力於這兩件事,因為與如果我們能同時實現這兩件事所獲得的選擇價值相比,這樣做的成本微不足道。
其他 AI 新聞
Anthropic 將 Chris Liddell 納入 其董事會, 帶來了豐富的企業經驗,以及他之前在川普第一任期內擔任白宮副幕僚長的經歷。據推測,這對市場和白宮來說都是一種某種形式的示好。
印度加入 Pax Silica ,這是川普政府旨在確保全球矽供應鏈的努力。其他核心成員包括日本、韓國、新加坡、荷蘭、以色列、英國、澳洲、卡達和阿聯。我很高興印度加入,但我對卡達和阿聯在這裡獲得的地位深表懷疑,因為據我所知,他們只是客戶(我對我們處理這方面的方式也有疑慮,包括我們是如何達成那些協議的)。在缺失的名單中,台灣尚未被列入。台灣可以說是這個供應鏈中最重要的國家。
GPT-5.2 推導出理論物理學的一個新結果 。
OpenAI 也參與了「1st Proof」挑戰 。
Dario Amodei 和 Sam Altman 在印度 AI 峰會的拍照環節中,顯眼地拒絕 握手或眼神交流 。
Anthropic 在印度班加羅爾開設 辦事處,這是其在亞洲繼東京之後的第二個辦事處。
Anthropic 宣布與盧安達在醫療保健和教育方面建立合作夥伴關係。
AI Futures 給出了 2025 年 12 月的更新,說明他們的想法和預測如何隨時間演變、預測如何運作,以及我們當前的世界如何與 AI 2027 的預測世界相對應。
Daniel Kokotajlo :我們估計答案的核心問題是:相對於 AI 2027 場景,AI 的進展速度有多快?
我們的估計:總體而言,定量指標的進展速度(大約)是 AI 2027 中發生速度的 65%。大多數定性預測都在步調上。
換句話說:正如我們之前所說,事情大致在軌道上,但進展稍微慢了一些。
OpenAI「指責」DeepSeek 蒸餾美國模型 以「獲得優勢」。嗯,是的,顯然他們正在這樣做,我以為我們大家都知道這一點?這就是規則。
MIRI 的 Nate Soares 參加了慕尼黑安全會議 ,在充滿將軍和參議員的場合談論 AI 的存在性風險,並分享了他的一些物流失誤以及他的發言 。他被邀請發言、沒被嘲笑,且許多人稱讚他以及如果有人造出它,每個人都會死 這本書,這很棒。不幸的是,所有的公開談話都很溫和,假裝超級智慧不會成為現實。我們還有很長的路要走。
如果你讓兩個 AI 互相交談一段時間,會發生什麼 ?你最終會進入一個「吸引子狀態」(attractor state)。Grok 會用全大寫說一些奇怪的偽單詞,GPT-5.2 會構建東西但隨後陷入循環,諸如此類。這一切都很奇怪且有趣。我不確定我們能從中學到什麼。
印度正在主辦最新的 AI 峰會 ,並且像其他所有人一樣,主要將其視為吸引投資的商業機會。該帖子還涵蓋了印度的 AI 法規,這些法規是輕觸式的,主要依靠其現有法律。鑑於我認為印度總體上監管過度,「我們的現有法律可以處理它」以及對進一步過度監管和拙劣實施的擔憂,在那裡有著相對強大的理由。
隆重介紹
Qwen 3.5-397B-A17B ,HuggingFace 連結在此 ,1M 上下文窗口 。
我們有一些基準測試。
Tiny Aya,一個可以安裝在手機上的大規模多語言模型系列 。
參與其中
Tyler John 編寫了 一項名為「基礎層」(The Foundation Layer)的 AGI 轉型慈善策略計畫 ,他正在招聘。
Tyler 的努力很像 Bengio 的 AI 現狀報告。它以一種被設計為冷靜且體面的方式描述了所有事實。默認情況下我們都會死的事實就在那裡,但如果你不想注意到它,你可以避免注意到它。
在某些場合這是你唯一的招數,所以我理解,但我並不喜歡。
Tyler John :核心論點?
基於基準測試、專家證詞和長期趨勢的最佳現有證據表明,我們應該預期在 2030 年左右出現比人類更聰明的 AI。一旦我們實現這一點:數十億個超人 AI 將部署在各處。
這導致了 3 個主要風險:
社會正急於將公司控制權、政府決策權和軍事指揮控制權交給 AI。與此同時,AI 系統在測試中禁用監督機制,向用戶撒謊以追求自己的目標,並採用像 Sydney 和 Mecha Hitler 這樣失調的人格。
我聽起來可能像個末日論者,但相對於許多了解 AI 的人來說,我實際上是個樂觀主義者,因為我認為這些問題是可以解決的。但對於許多技術,我們可以花幾十年時間逐漸修復問題。在這裡,我們可能只有五年的時間。
我提倡將慈善事業作為解決方案。與市場不同,慈善事業可以雷射般專注於最重要的問題,並在資本激勵存在之前採取行動讓我們做好準備。與政府不同,慈善事業可以迅速大規模部署,且不受官僚機構的約束。
我估計,基金會和非營利組織對 AGI 安全產生的影響與任何 AI 實驗室或政府相當,而成本僅為 OpenAI 的 Stargate 計畫的約 1/1,000。
想要開始嗎?請參閱附錄 A,其中列出了可以幫助你的顧問、可以與你並肩作戰的共同資助者,以及適合更放手方式的基金。或者發郵件給我:tyler@foundation-layer.ai
Blue Rose 正在招聘一名 AI 政治研究員 。
給我看錢
Anthropic 在 3800 億美元的投後估值中籌集了 300 億美元 ,這只是它最近從股市中抹去的價值的一小部分,在完全正常的 G 輪融資中 ,所以只剩下 19 輪融資了。考慮到過去幾個月 Opus 4.5、Opus 4.6 和 Claude Code 所發生的事情,這個數字對我來說似乎偏低。
andy jones :我很高興這張圖表現在公開了,因為它簡直瘋了。太荒謬了。它不應該存在。
它不應該被視為 Anthropic 執行力或潛力的證據,而應該被視為我們所處的世界是多麼奇怪的證據。
Tim Duffy :這對我來說是一個衝擊。我預期今年的收入增長率會放緩一點,但你們已經比 2025 年底增長了 50%!?!!?!
對 AI 的投資正在加速 ,每年超過 1 兆美元。
本週音訊
《AI 紀錄片:或者我如何成為一名末日樂觀主義者》預告片, 電影將於 3 月 27 日上映。幾位接受採訪或參與其中的人都給予了高度評價,認為這是一個公正且平衡的呈現。
Ross Douthat 採訪 Dario Amodei。
Y Combinator 播客採訪 Claude Code 的創作者 Boris Cherny 。
Ajeya Cotra 參加 80,000 Hours 節目 。
明天我們將繼續第 2 部分。