對齊期刊：即將推出

Lesswrong

大約 2 小時前

AI 生成摘要

我們正在籌備一家專門針對人工智慧對齊研究的新型同儕審查學術期刊，透過支付審稿費、具名審查以及引入大語言模型自動化工具，來填補目前出版生態系統中基礎對齊研究的空白。

重點提要 (tl;dr)：我們正在籌備一本 AI 對齊（AI alignment）學術期刊：針對目前出版生態系統服務不足的基礎對齊研究，提供快速的同儕審查。核心策略包括：有償且具名的審查制度、由審查者撰寫的綜合摘要，以及針對性的自動化流程。如果你有興趣以作者、審查者或編輯的身分參與，或者認識合適的人選，請。

基礎對齊研究的實驗性基礎設施

這是關於籌備一本致力於 AI 對齊的新型同儕審查期刊，「公開構建」（build-in-the-open）系列更新的第一篇。後續更新將包含更多細節，但我們希望盡快發布此消息，以吸引社群早期參與。請以表達你作為作者、審查者、編輯、開發者、管理員或董事會成員的參與意願，或推薦可能感興趣的人選。

核心策略

同儕審查是一項至關重要的公共財：它投入稀缺的研究者時間來篩選新想法，以便社群集中關注，但由於對個人審查者的激勵不足，導致供應短缺。對齊研究領域的同儕審查尤其破碎。雖然對齊研究社群的部分內容已有現有的管道（如期刊和機器學習會議）提供服務，但仍存在顯著差距。這些差距源於多種因素，包括某些類型的工作缺乏合適的審查者群體。此外，在當前時代，這些機構的運作速度都沒有達到我們認為應有的水平，主要是因為慣性。各種預印本伺服器和線上論壇避開了這些問題，但通常以犧牲質量認證和機構合法性為代價。此外，當注意力因趨勢和炒作而分配不當時，它們的審查覆蓋範圍也會受到影響。

我們的策略是創建一個既能提供機構槓桿（協調、補償）和辨識度（引用、存檔記錄、穩定索引），又不會因機構摩擦而拖慢速度的平台。相反，我們可以以小巧、敏捷的規模運作，提供專用工具並進行快速實驗。

運作設計

我們圍繞幾個特定的、高槓桿的假設來設計這本期刊：

審查者的注意力是稀缺資源：「無償委員會」模式是有缺陷的。我們正在嘗試具名且有償的同儕審查，並針對質量和速度進行校準。我們將投資於獲得審查者全面、專注的注意力。
「審查者摘要」：我們不會只給出二元的「接受/拒絕」，或未經整理的公開審查討論記錄，而是在審查過程中輸出信息密度更高的信號。^() 被接受的論文將附帶一份由審查者撰寫的指南：這篇文章是給誰看的？核心貢獻是什麼？具體的注意事項有哪些？
自動化：我們相信，針對性地使用 LLM 驅動的自動化可以簡化編輯週期的多個步驟，例如：標記可檢查的錯誤、識別和篩選候選審查者、根據論文實際內容審核審查意見、預先要求作者考慮解決可能的審查反對意見，以及準備多格式出版。我們的目標是避免在瑣碎工作中浪費編輯、作者和審查者的勞動力，並使決策更具可審核性和可逆性。

我們即將發布的期刊正式說明將包含更多細節。以協助完善它。

範疇

「AI 對齊」是一個廣泛且常有爭議的標籤。為了從第一天起就提供高信號的環境，我們對起點做出了慎重的選擇：

初期重點：基礎研究。啟動時，我們將偏向於對 AI 對齊的觀念和理論理解有貢獻的作品。這包括但不限於：智能體理論的進展、正式安全證明、AI 模型的計算和學習理論特性、可擴展監督（scalable oversight）、可解釋性的理論基礎，以及為上述內容提供資訊的實證工作。我們選擇這個領域，是因為它通常被認為在目前的會議週期中服務不足。^()
填補差距策略：我們的首要任務是那些需要比部落格文章更嚴謹的評估，但又不符合機器學習會議高接受率特徵的工作（例如：沒有在廣泛認可的基準測試上提升性能指標等）。我們希望為那些細緻、通常難以評估的基礎工作建立一個家，而這正是該領域長期進步所依賴的。長遠來看，這一差距的確切形式將由編輯委員會決定。
學術求真：在主題範疇內，論文將主要根據理論健全性以及「這項工作是否加深了我們的理解？」這一問題進行評估。雖然我們創辦期刊的動力源於對繁榮未來的渴望，但對於學術平台而言，根據論文是否符合任何政治議程來評估，或過度肯定我們評估其長期廣泛世界影響的能力，既不可行也不合適。我們將保留對可證明的、即時傷害的倫理審查。

這只是一個起點。目前的團隊並非衡量什麼構成「對齊」的最終仲裁者。雖然我們正在設定初始方向以啟動引擎，但擴大、縮小或轉移範疇的長期責任將屬於編輯委員會。我們現在的工作是建造一個足夠堅固的容器來承載這些辯論。

治理

該項目目前處於孵化階段。隨著期刊「管道」的成長，編輯和戰略權力將由來自對齊研究社群、受人尊敬的研究者組成的編輯委員會接管。該期刊將由慈善資助，因此我們的資助者自然會對期刊的發展產生影響，但我們致力於建立一個屬於該領域、自給自足的公共財機構。

顧問委員會

我們感謝顧問委員會初始成員的建議與支持：

Geoffrey Irving 是的首席科學家。他曾領導 DeepMind 的可擴展對齊團隊、OpenAI 的 Reflection 團隊，並共同領導了 Google Brain 的神經網絡定理證明工作。他的研究包括 AI 辯論以及其他可擴展的對齊和評估方法。連結：；；；。
Marcus Hutter 是 DeepMind 的高級研究員，也是澳洲國立大學的名譽教授。他對通用智能的算法信息論模型研究，在 AIXI 框架及相關可計算近似中統一了 Solomonoff 歸納法與序列決策理論。他還研究了獎勵黑客（reward hacking）和價值學習公式，以消除操縱獎勵信號的動機。他著有《》，並設立了（又稱 Hutter 獎）。連結：；；；。
Scott Aaronson 是德州大學奧斯汀分校的計算機科學教授，也是其的創始主任。他研究計算複雜性理論和量子計算，包括玻色子採樣、後選擇以及量子加速的極限。作為 OpenAI 的訪問研究員，他致力於 AI 安全的理論基礎，包括 AI 輸出浮水印。他還創建了，並著有《》。連結：；；；；。
Victoria Krakovna 是 Google DeepMind AGI 安全與對齊團隊的研究科學家。她研究危險能力評估、欺騙性對齊、謀劃傾向評估、規格博弈（specification gaming）、目標誤泛化以及避免有害副作用的方法。她共同創立了。連結：；；；。

機構管理

這個項目可能會失敗。執行不力可能會造成追逐地位的瓶頸，進一步污染對齊研究的信噪比，或者只是浪費研究者的時間。與其他倡議協調不當可能會阻礙而非幫助該領域。

為了降低這種風險，我們將作為對齊研究社群的良好公民參與其中。我們將追蹤並發布我們自己的績效指標：週轉時間、審查者負載和作者滿意度，並徵求廣大社群評估我們是否在出版生態系統中進行了合作且富有成效的參與。期刊的持續運作將取決於社群的正向回饋，以及編輯委員會對反事實正向影響的持續重新評估。無論項目的最終命運如何，被接受的論文都將保留在網上。

後續步驟

加入創始團隊

一本期刊的優劣取決於其社群，而你可以成為其中的一員。我們希望參與對齊期刊（無論是作為編輯、作者還是審查者）都能切實地累積地位。這應該是為你的職業目標而投入時間的合理方式。

高效時間利用：通過自動化消除瑣碎工作，尊重你的專業知識。
可見性：確保高質量的編輯和審查工作被認可為對該領域的一流貢獻。
影響力：讓參與者直接參與塑造對齊研究的標準和內容。

如果你相信這個基礎設施是安全生態系統中缺失的一環，。

編輯：我們需要具有判斷力的人來引導期刊，並擔任公平、嚴謹審查過程的調解人。
審查者：我們正在建立一個涵蓋技術與觀念對齊、可解釋性和治理領域的資深專家庫。
作者：如果你的工作嚴謹且對 AI 對齊很重要，我們想聽聽你重視什麼樣的審查體驗。
治理：如果你在建立高信任度社群機構或設計治理轉型方面有經驗，我們特別想聽聽你的意見。

我們很快將分享關於期刊設計和計劃的初步說明，其中包含更多細節，所以如果你想參與塑造它，請現在就聯繫我們。

在線上支持我們

歡迎你在所有常用平台上關注我們：

X/Twitter:
我們的進展將發布在以及 LessWrong。

最重要的是，我們的內容將託管在主站。

本文件貢獻者

我們感謝、和對本文的支持和反饋。作者並不承諾永久遵守期刊戰略大綱的每一個細節。這是持續諮詢的第一階段，我們預計會根據有關最佳策略的新證據調整我們的立場。內容或執行中的所有錯誤責任均由現任執行編輯和承擔。

^() 我們打算嘗試各種可能的評分、認證和其他質量信號。這是我們的初步提議，因為這是我們有一些經驗的做法。
^() 在機器學習研究中，強調在基準測試上取得最先進 (State-of-the-Art) 結果的實際影響是複雜且有爭議的，而且我們認為，即使在該領域內部，這一點尚未得到很好的理解。有關具備鮮明觀點的介紹，請參閱 Moritz Hardt 的著作《》。

An Alignment Journal: Coming Soon