我讓 Claude 讀了 2020 年以來的所有 AI 安全論文，這是整理出的資料庫

Lesswrong

大約 3 小時前

AI 生成摘要

我利用 Claude 分析並總結了自 2020 年以來發表的近 4,000 篇 AI 安全論文，並建立了一個可搜尋的資料庫，幫助研究人員更有效地找到相關的數據集與技術。

^() 在某種程度上，這裡的核心想法是將這些論文中的大量資訊編碼成足夠小的內容，以便讓一個帶著特定問題的 AI 能夠吸收所有論文的編碼，並決定哪些值得進一步閱讀或研究。

在過去的一個月裡，我一直試圖看看自己在 AI 安全領域從零開始^()能學習和做到多少。這其中的很大一部分是瘋狂地學習機械解釋性（mech interp），但我同時啟動了兩個我認為值得分享的專案！

AI 安全領域的論文非常多。當我開始著手進行更多實作專案時，並沒有一個明確的方法來尋找相關論文。例如，如果我想找相關的資料集，目前沒有很好的搜尋方式。，但其搜尋功能非常糟糕。我可以要求 AI 嘗試尋找相關資料集，但這大多只是取決於 Google 搜尋的運氣。許多優秀的資料集都隱藏在名不見經傳的論文中^()。或者，如果我想研究使用某種特定技術，也很難透過搜尋找到所有關於稀疏自編碼器（sparse autoencoding）的論文。

因此，我讓 Claude^() 閱讀了每一篇它能自信地歸類為 AI 安全的論文，然後對其進行摘要、標記、記錄發表年份、作者等資訊^()。我的方法是先簡單地要求 Claude 盡可能尋找 AI 安全論文，以及任何現有的 AI 安全論文清單。這讓我找到了大約 350 篇論文。接著，我收集了所有引用了這 350 篇論文中至少三篇的論文（約 8000 篇），然後讓 Claude 閱讀它認為確實屬於 AI 安全範疇的論文（約 3000 篇）。這種基於引用的方法意味著部落格文章或任何沒有 arXiv 編號的內容在該資料集中會被低估。從最初的 350 篇論文擴展也意味著這個資料庫會偏向於那些特定的初始論文。

目前資料庫中已有接近 4000 篇論文，這在過去 5 年左右的時間裡簡直是一個瘋狂的數字。顯然，這些論文中的許多（甚至是大多數）並非實質性的。我的模型基本上是：絕大多數發表的論文都是由玩「大學/學術遊戲」的人撰寫的。玩學術遊戲的目標並不是降低 AI 對人類造成災難性傷害的機率，而是發表新穎的論文，被其他學者引用以建立聲譽，進而獲得一份好工作，領薪水繼續研究有趣的課題。

Neel Nanda 經常談到：「我的終極北極星是務實主義——獲得足以產生（可靠）效用的理解。」^() 當我第一次讀到這句話時，覺得這顯然是陳腔濫調，為什麼需要特別強調？但是，我對機械解釋性（以及整個 AI 安全領域）的理解越深，就越明白為什麼強調這一點如此重要。大型語言模型（LLM）極其不透明、極其有趣且極其複雜。其副作用是，一個人可以投入的有趣、好玩的專案空間簡直大得驚人。有無數「新穎」的論文等著被撰寫^()。

這一切是想說，論文數量與幫助我們避免滅絕的貢獻比例相當令人沮喪。海量的論文讓人更難找到真正優秀的內容。但是，這並不是說不能從中汲取價值！我發現這個資料庫在思考新專案時非常有幫助。它能輕鬆找到相關論文（然後讓 AI 為我閱讀並總結最相關的部分），也能輕鬆找到所有可能相關的資料集。我曾利用它來協助尋找資料集，用於我今天發表的另一個專案：。

以下為預覽：

^()顯然不是「所有」，我確定漏掉了一些——特別是 2020 年和 2021 年的，因為存在近因偏差。但如果你認為我漏掉了什麼，可以輕鬆提交並添加！
^()前量化交易員，因此具有相對的技術背景——但絕對不是計算機科學博士。
^()舉一個隨機的例子，每位 MATS 研究員都會獲得 1.2 萬美元的算力補助，有些論文的大部分算力都直接用於創建高品質資料集，。
^()混合使用了 Sonnet 3.5 (~70%) 和 Opus 3.5 (~30%)，一旦我對論文總數有了更清晰的概念後，出於成本考慮，我從 Opus 切換到了 Sonnet。
^()我還讓 Claude 對論文的「新穎性」、「適用性」和「算力需求」進行評分。我不會對這些評分抱太大期望。從 Claude 對 AI 安全領域中什麼是新穎、適用或耗算力的看法中，或許能發現一些有趣的東西，但那不是本文的主題。
^()
^()這還沒提到那些真心認為自己對一年多前的模型所做的研究代表了當前技術水平的論文。澄清一下，我認為對較小模型的研究很棒，對此沒有意見——只是學術界似乎經常喜歡假裝舊模型就是尖端技術。

I Had Claude Read Every AI Safety Paper Since 2020, Here is the Database