newsence
來源篩選

Crawling a billion web pages in just over 24 hours, in 2025

Hacker News

The author explores the modern feasibility and costs of large-scale web crawling, successfully processing one billion pages in about 25 hours for approximately $462.

newsence

在 2025 年於 24 小時內爬取十億個網頁

Hacker News
6 天前

AI 生成摘要

我想探討在 2025 年大規模爬取網頁的技術現狀與成本變化,最終成功在約 25 小時內以 462 美元的預算完成了十億個網頁的爬取實驗。

背景

在 2025 年的技術環境下,一名開發者挑戰在 24 小時內以不到 500 美元的預算爬取十億個網頁。這項實驗旨在重新檢視自 2012 年以來,隨著硬體效能大幅提升、NVMe 儲存普及以及網路頻寬爆炸後,大規模網路爬蟲的技術瓶頸是否發生了轉移,並探討在不執行 JavaScript 的前提下,現代網路還有多少比例能被傳統方式有效索引。

社群觀點

針對這項實驗,Hacker News 的討論聚焦於現代網路環境與過去的巨大差異。有評論者感嘆,當看到一個人能以如此低廉的成本和極短的時間處理十億個網頁時,反而更能體會到 Google 這類搜尋引擎巨頭是如何透過演算法與篩選機制,將浩瀚無垠的網際網路限縮成使用者所感知到的狹小範圍。這種規模感對比出大眾日常接觸的資訊僅是冰山一角,而真正的網路深度遠超想像。

然而,社群中更具實務經驗的開發者指出,這項實驗雖然在技術架構與硬體效率上令人印象深刻,卻忽略了現代爬蟲最核心的痛點:阻擋機制。在商業應用場景中,頻寬與儲存空間早已不是主要的成本支出,真正的挑戰在於如何規避 Cloudflare 等防護服務的偵測。許多網站對於非人類流量極其敏感,若不投入大量資源配置住宅區代理伺服器、驗證碼破解工具、旋轉使用者代理字串,甚至是使用經過偽裝的無頭瀏覽器二進位檔,爬蟲極易在第一時間收到 403 錯誤而無法獲取任何內容。

討論中也提到,雖然實驗者透過遵守 robots.txt 與設定長達 70 秒的域名存取間隔來展現禮貌,但在現實的商業競爭或大規模數據採集任務中,這種理想化的環境很難維持。社群普遍認為,現代爬蟲的技術演進已從單純的「效能優化」轉向「行為模擬」與「反偵測對抗」。即便硬體效能足以支撐單日十億次的請求,若無法突破日益嚴苛的網路防禦牆,這些運算能力在實務上往往無用武之地。

延伸閱讀

  • SEOJuice:留言者提到的新創服務,涉及處理大規模域名爬取與反阻擋技術。
  • Michael Nielsen (2012):原文提到的參考基準,記錄了十多年前進行大規模網頁爬取的成本與技術限制。