在 2025 年於 24 小時內爬取十億個網頁

Hacker News

6 天前

AI 生成摘要

我想探討在 2025 年大規模爬取網頁的技術現狀與成本變化，最終成功在約 25 小時內以 462 美元的預算完成了十億個網頁的爬取實驗。

andrewkchan.dev

crawler

背景

在 2025 年的技術環境下，一名開發者挑戰在 24 小時內以不到 500 美元的預算爬取十億個網頁。這項實驗旨在重新檢視自 2012 年以來，隨著硬體效能大幅提升、NVMe 儲存普及以及網路頻寬爆炸後，大規模網路爬蟲的技術瓶頸是否發生了轉移，並探討在不執行 JavaScript 的前提下，現代網路還有多少比例能被傳統方式有效索引。

社群觀點

針對這項實驗，Hacker News 的討論聚焦於現代網路環境與過去的巨大差異。有評論者感嘆，當看到一個人能以如此低廉的成本和極短的時間處理十億個網頁時，反而更能體會到 Google 這類搜尋引擎巨頭是如何透過演算法與篩選機制，將浩瀚無垠的網際網路限縮成使用者所感知到的狹小範圍。這種規模感對比出大眾日常接觸的資訊僅是冰山一角，而真正的網路深度遠超想像。

然而，社群中更具實務經驗的開發者指出，這項實驗雖然在技術架構與硬體效率上令人印象深刻，卻忽略了現代爬蟲最核心的痛點：阻擋機制。在商業應用場景中，頻寬與儲存空間早已不是主要的成本支出，真正的挑戰在於如何規避 Cloudflare 等防護服務的偵測。許多網站對於非人類流量極其敏感，若不投入大量資源配置住宅區代理伺服器、驗證碼破解工具、旋轉使用者代理字串，甚至是使用經過偽裝的無頭瀏覽器二進位檔，爬蟲極易在第一時間收到 403 錯誤而無法獲取任何內容。

討論中也提到，雖然實驗者透過遵守 robots.txt 與設定長達 70 秒的域名存取間隔來展現禮貌，但在現實的商業競爭或大規模數據採集任務中，這種理想化的環境很難維持。社群普遍認為，現代爬蟲的技術演進已從單純的「效能優化」轉向「行為模擬」與「反偵測對抗」。即便硬體效能足以支撐單日十億次的請求，若無法突破日益嚴苛的網路防禦牆，這些運算能力在實務上往往無用武之地。

Crawling a billion web pages in just over 24 hours, in 2025

背景

社群觀點

延伸閱讀