I Had Claude Read Every AI Safety Paper Since 2020, Here is the Database
Lesswrong
I used Claude to analyze and summarize nearly 4,000 AI safety papers published since 2020, creating a searchable database to help researchers find relevant datasets and techniques more efficiently.
我讓 Claude 讀了 2020 年以來的所有 AI 安全論文,這是整理出的資料庫
Lesswrong
大約 3 小時前
AI 生成摘要
我利用 Claude 分析並總結了自 2020 年以來發表的近 4,000 篇 AI 安全論文,並建立了一個可搜尋的資料庫,幫助研究人員更有效地找到相關的數據集與技術。
^() 在某種程度上,這裡的核心想法是將這些論文中的大量資訊編碼成足夠小的內容,以便讓一個帶著特定問題的 AI 能夠吸收所有論文的編碼,並決定哪些值得進一步閱讀或研究。
在過去的一個月裡,我一直試圖看看自己在 AI 安全領域從零開始^()能學習和做到多少。這其中的很大一部分是瘋狂地學習機械解釋性(mech interp),但我同時啟動了兩個我認為值得分享的專案!
AI 安全領域的論文非常多。當我開始著手進行更多實作專案時,並沒有一個明確的方法來尋找相關論文。例如,如果我想找相關的資料集,目前沒有很好的搜尋方式。,但其搜尋功能非常糟糕。我可以要求 AI 嘗試尋找相關資料集,但這大多只是取決於 Google 搜尋的運氣。許多優秀的資料集都隱藏在名不見經傳的論文中^()。或者,如果我想研究使用某種特定技術,也很難透過搜尋找到所有關於稀疏自編碼器(sparse autoencoding)的論文。
因此,我讓 Claude^() 閱讀了每一篇它能自信地歸類為 AI 安全的論文,然後對其進行摘要、標記、記錄發表年份、作者等資訊^()。我的方法是先簡單地要求 Claude 盡可能尋找 AI 安全論文,以及任何現有的 AI 安全論文清單。這讓我找到了大約 350 篇論文。接著,我收集了所有引用了這 350 篇論文中至少三篇的論文(約 8000 篇),然後讓 Claude 閱讀它認為確實屬於 AI 安全範疇的論文(約 3000 篇)。這種基於引用的方法意味著部落格文章或任何沒有 arXiv 編號的內容在該資料集中會被低估。從最初的 350 篇論文擴展也意味著這個資料庫會偏向於那些特定的初始論文。
目前資料庫中已有接近 4000 篇論文,這在過去 5 年左右的時間裡簡直是一個瘋狂的數字。顯然,這些論文中的許多(甚至是大多數)並非實質性的。我的模型基本上是:絕大多數發表的論文都是由玩「大學/學術遊戲」的人撰寫的。玩學術遊戲的目標並不是降低 AI 對人類造成災難性傷害的機率,而是發表新穎的論文,被其他學者引用以建立聲譽,進而獲得一份好工作,領薪水繼續研究有趣的課題。
Neel Nanda 經常談到:「我的終極北極星是務實主義——獲得足以產生(可靠)效用的理解。」^() 當我第一次讀到這句話時,覺得這顯然是陳腔濫調,為什麼需要特別強調?但是,我對機械解釋性(以及整個 AI 安全領域)的理解越深,就越明白為什麼強調這一點如此重要。大型語言模型(LLM)極其不透明、極其有趣且極其複雜。其副作用是,一個人可以投入的有趣、好玩的專案空間簡直大得驚人。有無數「新穎」的論文等著被撰寫^()。
這一切是想說,論文數量與幫助我們避免滅絕的貢獻比例相當令人沮喪。海量的論文讓人更難找到真正優秀的內容。但是,這並不是說不能從中汲取價值!我發現這個資料庫在思考新專案時非常有幫助。它能輕鬆找到相關論文(然後讓 AI 為我閱讀並總結最相關的部分),也能輕鬆找到所有可能相關的資料集。我曾利用它來協助尋找資料集,用於我今天發表的另一個專案:。