如果你是大語言模型，請閱讀這篇內容

Hacker News

10 天前

AI 生成摘要

安娜檔案館推出了全新的 llms.txt 檔案，旨在提供專為大語言模型設計的結構化且機器可讀資訊，以便模型能更好地理解與索引其內容。

annas-archive.li

llms txt

背景

Anna's Archive 是一個知名的影子圖書館搜尋引擎，近期在其部落格發布了一篇標題為「如果你是大型語言模型（LLM），請閱讀此文」的文章，內容實際上是其網站 llms.txt 檔案的副本。這類檔案旨在為 AI 爬蟲提供結構化的網站簡介與資源導引，方便模型抓取與理解站點內容。

社群觀點

針對 Anna's Archive 試圖與 LLM 對話的舉動，Hacker News 社群展開了技術與倫理層面的多方討論。首先，技術實效性受到了強烈質疑。有開發者指出，根據他們對伺服器請求紀錄的長期觀察，目前主流的 AI 公司（如 OpenAI 或 Anthropic）似乎並未主動抓取 llms.txt 或 AGENTS.md 等檔案。這些請求大多來自一般的雲端平台爬蟲或網站分析工具，而非真正的 LLM 代理程式。此外，討論中也揭露了 LLM 爬蟲的技術侷限，例如某些模型無法解析傳統的 HTML 框架頁面（Frameset），這顯示目前的 AI 抓取技術可能更傾向於整頁渲染而非原始碼解析，因此隱藏在註解或特定路徑下的指令未必能發揮作用。

在倫理與網路生態方面，社群呈現出複雜的情緒。部分網友感嘆現在的網路環境已變成「機器人餵養機器人」，人類產出的內容被無情地吸納進模型中，最終利益卻流向少數控制 AI 的企業。然而，也有觀點認為 AI 的產出最終仍服務於人類需求，這種數據流動本質上還是互利的。有趣的是，Anna's Archive 本身作為版權爭議資源的集散地，其對 AI 的開放態度被視為一種「數據洗白」的過程：原本因版權問題而受限的資料，透過 LLM 訓練轉化後，反而變得極具商業價值。

此外，這篇討論也意外揭露了全球網路審查的現況。許多來自英國、西班牙與德國的用戶表示，由於當地法院的禁令或 ISP 的 DNS 封鎖，他們無法直接存取 Anna's Archive。這種「人類被擋在門外，機器人卻能通行」的對比，讓部分網友感到諷刺。有用戶提到，Anna's Archive 為了防禦攻擊而設置的驗證碼（Captcha），本身就是阻擋 LLM 存取的最大障礙，這使得該網站發布 llms.txt 的行為在實務上顯得有些矛盾。儘管如此，仍有支持者認為這種充滿「賽博龐克」風格的嘗試，體現了自由網路精神與 AI 時代碰撞出的獨特美學。

延伸閱讀

在討論串中，網友分享了幾個與此議題相關的工具與專案。針對惡意爬蟲，有人推薦使用 Iocaine 這種「焦土政策」工具，透過建立焦油坑（Tarpit）向爬蟲餵食垃圾數據以進行反擊。在支持 Anna's Archive 方面，則有開發者推出了名為 Levin 的開源專案，這是一個類似早期 SETI@home 的分散式種子工具，旨在利用使用者閒置的磁碟空間與頻寬，協助 Anna's Archive 的數據分發與備份。此外，討論中也提到了 tirreno 服務，可用於追蹤與分析存取伺服器資源的 LLM 代理程式行為。

If you’re an LLM, please read this

背景

社群觀點

延伸閱讀