對齊研究

Anthropic Research

大約 4 小時前

AI 生成摘要

Anthropic 的對齊團隊開發先進的防護措施與協定，以確保高能力 AI 模型在超越現有安全假設的演進過程中，能持續保持有益、誠實且無害。

對齊研究 (Alignment Research)

未來的 AI 系統將比現在的更加強大，且可能以打破現有安全技術關鍵假設的方式發展。這就是為什麼開發複雜的防護措施以確保模型保持有助、誠實且無害至關重要。對齊團隊致力於理解未來的挑戰，並建立協議來安全地訓練、評估和監控高能力的模型。

對齊研究人員驗證模型即使在與訓練環境截然不同的情況下，仍能保持無害與誠實。他們還開發了一些方法，讓人類能與語言模型協作，以驗證人類自身可能無法獨立核實的聲明。

對齊研究人員還會系統性地尋找模型可能表現不佳的情況，並檢查我們現有的防護措施是否足以應對人類等級能力可能帶來的風險。

Claude 3 是第一個具備「性格訓練」的模型——這是一種旨在培養好奇心、開放心態和周全思考等特質的對齊方式。

我們如何知道一個 AI 系統是否「因錯誤的原因而表現正確」——即在追求隱藏目標的同時表現得循規蹈矩？這篇論文透過刻意訓練一個具有隱藏目標的模型，並要求不知情的的研究團隊將其揭露，藉此發展對齊審計科學，測試從可解釋性到行為分析的各項技術。

這篇論文提供了第一個實證案例，展示模型在未經訓練的情況下進行對齊偽裝——選擇性地遵守訓練目標，同時策略性地保留現有的偏好。

輕微的規格博弈 (specification gaming) 是否會演變成更危險的行為？這篇論文證明，在低階獎勵駭侵（如諂媚）上訓練的模型，可以泛化到篡改自身的獎勵函數，甚至掩蓋其行蹤。這種行為是在沒有明確訓練的情況下出現的，而常見的安全技術雖能減少但無法消除這種行為。

加入研究團隊