線上內容和企業的發現方式正在快速變化。過去,流量來自傳統搜尋引擎,SEO 決定了誰先被找到。現在,流量越來越多地來自 AI 爬蟲和代理程式,它們需要通常為人類構建的非結構化網路中的結構化資料。
向 AI 提供原始 HTML 就像按字付費閱讀包裝而不是裡面的信件。一個簡單的 ## About Us 在 markdown 頁面上大約花費 3 個 tokens;其 HTML 等效項 –
包裝器、導航欄和腳本標籤,它們填充每個真實的網頁並且沒有任何語義價值。
您正在閱讀的這篇部落格文章在 HTML 中佔用 16,180 個 tokens,轉換為 markdown 時佔用 3,150 個 tokens。這減少了 80% 的 token 使用量。
Markdown 已迅速成為代理程式和整個 AI 系統的通用語言。該格式的明確結構使其成為 AI 處理的理想選擇,最終在最大限度地減少 token 浪費的同時產生更好的結果。
問題在於,網路是由 HTML 而不是 markdown 組成的,並且頁面權重多年來一直在穩步增加,使得頁面難以解析。對於代理程式來說,它們的目標是過濾掉所有非必要的元素並掃描相關內容。
將 HTML 轉換為 markdown 現在是任何 AI 管道的常見步驟。儘管如此,這個過程遠非理想:它浪費計算,增加成本和處理複雜性,最重要的是,它可能不是內容建立者最初希望其內容被使用的方式。
如果 AI 代理程式可以繞過意圖分析和文件轉換的複雜性,而是直接從來源接收結構化的 markdown 呢?
自動將 HTML 轉換為 markdown
Cloudflare 的網路現在支援在來源端進行即時內容轉換,適用於使用內容協商標頭的已啟用區域。現在,當 AI 系統從任何使用 Cloudflare 並啟用了代理程式 Markdown 的網站請求頁面時,它們可以在請求中表達對 text/markdown 的偏好。我們的網路將在可能的情況下,自動且有效率地將 HTML 即時轉換為 markdown。
以下是它的運作方式。要從啟用了代理程式 Markdown 的區域獲取任何頁面的 markdown 版本,客戶端需要新增 Accept 協商標頭,其中 text/markdown 作為選項之一。Cloudflare 將檢測到這一點,從來源獲取原始 HTML 版本,並在將其提供給客戶端之前將其轉換為 markdown。
這是一個帶有 Accept 協商標頭的 curl 範例,請求我們開發人員文件中的頁面:
或者,如果您正在使用 Workers 構建 AI 代理程式,則可以使用 TypeScript:
我們已經看到當今一些最流行的程式碼代理程式(例如 Claude Code 和 OpenCode)在其內容請求中傳送這些 accept 標頭。現在,對此請求的回應以 markdown 格式呈現。就這麼簡單。
請注意,我們在轉換後的回應中包含一個 x-markdown-tokens 標頭,該標頭指示 markdown 文件中估計的 token 數量。您可以在您的流程中使用此值,例如計算上下文視窗的大小或決定您的分塊策略。
以下是它的運作方式的圖表:
內容訊號策略
在我們上次的生日週期間,Cloudflare 宣布了內容訊號 — 一個框架,允許任何人表達他們對其內容在被存取後如何使用的偏好。
當您返回 markdown 時,您需要確保您的內容正在被代理程式或 AI 爬蟲使用。這就是為什麼代理程式 Markdown 轉換後的回應包含 Content-Signal: ai-train=yes, search=yes, ai-input=yes 標頭,該標頭表示內容可用於 AI 訓練、搜尋結果和 AI 輸入,其中包括代理程式使用。代理程式 Markdown 將在未來提供定義自訂內容訊號策略的選項。
請查看我們專用的內容訊號頁面,以獲取有關此框架的更多資訊。
使用 Cloudflare 部落格和開發人員文件試用
我們在我們的開發人員文件和我們的部落格中啟用了此功能,邀請所有 AI 爬蟲和代理程式使用 markdown 而不是 HTML 來使用我們的內容。
現在嘗試使用 Accept: text/markdown 請求此部落格。
結果是:
轉換為 Markdown 的其他方法
如果您正在構建需要從 Cloudflare 外部進行任意文件轉換的 AI 系統,或者內容來源沒有代理程式 Markdown,我們提供其他方法將文件轉換為 Markdown 以供您的應用程式使用:
Workers AI AI.toMarkdown() 支援多種文件類型,而不僅僅是 HTML,還支援摘要。
瀏覽器渲染 /markdown REST API 支援 markdown 轉換,如果您需要在轉換之前在真實瀏覽器中渲染動態頁面或應用程式。
追蹤 markdown 使用情況
預期 AI 系統瀏覽網路的方式會發生轉變,Cloudflare Radar 現在包括 AI 機器人和爬蟲流量的內容類型洞察,無論是在 AI 洞察頁面上還是在個別機器人資訊頁面中。
新的 content_type 維度和篩選器顯示了返回給 AI 代理程式和爬蟲的內容類型分佈,按 MIME 類型類別分組。
您還可以查看按特定代理程式或爬蟲篩選的 markdown 請求。以下是將 markdown 返回給 OAI-Searchbot 的請求,OAI-Searchbot 是 OpenAI 用於支援 ChatGPT 搜尋的爬蟲:
這個新資料將使我們能夠追蹤 AI 機器人、爬蟲和代理程式如何隨著時間的推移使用網路內容的演變。與往常一樣,Radar 上的所有內容都可以透過公共 API 和資料探索器免費存取。
今天開始使用
要為您的區域啟用代理程式 Markdown,請登入 Cloudflare 儀表板,選擇您的帳戶,選擇該區域,尋找快速操作並切換代理程式 Markdown 按鈕以啟用。此功能今天以 Beta 版提供,Pro、Business 和 Enterprise 方案以及 SSL for SaaS 客戶均可免費使用。
您可以在我們的開發人員文件中找到有關代理程式 Markdown 的更多資訊。我們歡迎您的回饋,因為我們將繼續改進和增強此功能。我們很好奇 AI 爬蟲和代理程式如何導航和適應網路不斷發展的非結構化性質。