本文是 MERJ 和 Vercel 研究實際數據總結了目前主流 AI 爬蟲的幾個特征。 注:Vercel 是 Next.js 的前端云平臺;MERJ 是數據驅動的營銷公司;本文翻譯自 Vercel 的 Blog 文章《The rise of the AI crawler》。 整體上,AI 爬蟲已經成為網絡上的重要存在。在過去一個月中,OpenAI 的 GPTBot 在 Vercel 網絡上產生了 5.69 億次抓取,而 Anthropic 的 Claude 緊隨其后,達到了 3.7 億次。 而這 2 個加起來的請求量只占同期 Googlebot 45 億次抓取的 20%。 Vercel 網絡上的 AI 爬蟲流量非常大。在過去的一個月: GPTBot、Claude、AppleBot 和 PerplexityBot 合計抓取了近 13 億次,約占 Googlebot 總抓取量的 28%+。 雖然AI 爬蟲尚未達到 Googlebot 的規模,但他們已占據網絡爬蟲流量的很大部分。 這些 AI 爬蟲都在美國數據中心: 相比之下,傳統搜索引擎通常會將抓取分散到多個地區。例如,Googlebot 在美國七個不同的地區運營,包括達爾斯(俄勒岡州)、康瑟爾布拉夫斯(愛荷華州)和蒙克斯科納(南卡羅來納州)。 AI 爬蟲在 JavaScript 渲染能力方面存在明顯差異。為了驗證我們的發現,我們分析了使用不同技術棧的 Next.js 應用程序和傳統網頁應用。 調查結果一致表明,目前主要的 AI 爬蟲都不渲染 JavaScript。這包括: 研究結果還顯示: 數據表明,雖然 ChatGPT 和 Claude 的爬蟲確實會獲取 JavaScript 文件(ChatGPT:11.50%,Claude:23.84% 的請求),但它們并不執行這些文件。它們無法讀取客戶端渲染的內容。 但請注意,包含在初始 HTML 響應中的內容(如 JSON 數據或延遲的 React Server Components)可能仍會被索引,因為 AI 模型可以解析非HTML內容。 相比之下,Gemini 使用 Google 的基礎設施,使其具有與我們在 Googlebot 分析中記錄的相同渲染能力,能夠完整處理最新的網頁應用。 AI 爬蟲在抓取 nextjs.org 時表現出明顯的內容類型偏好。最明顯的特征有: 作為對比,Googlebot 的抓取量(包括 Gemini 和搜索)分布更加均勻: 這些模式表明AI 爬蟲會收集多樣化的內容類型——HTML、圖片,甚至將 JavaScript 文件作為文本收集——這可能是為了訓練他們的模型以適應各種形式的網頁內容。 雖然像 Google 這樣的傳統搜索引擎已經針對搜索索引優化了他們的抓取模式,但較新的AI 公司可能仍在完善他們的內容優先級策略。 我們的數據顯示AI 爬蟲行為存在明顯的低效現象: 對 404 錯誤的分析顯示,除去 robots.txt 之外,這些爬蟲經常嘗試獲取 /static/ 文件夾中的過期資源。這表明AI 爬蟲需要改進 URL 選擇和處理策略以避免不必要的抓取。 這些高比例的 404 錯誤和重定向與 Googlebot 形成鮮明對比 -Googlebot 僅有 8.22% 的請求遇到 404 錯誤,1.49% 的請求遇到重定向。這表明 Google 在優化其爬蟲以抓取真實資源方面確實有更多經驗。 我們對流量模式的分析揭示了爬蟲行為和網站流量之間存在關聯性。基于來自 雖然傳統搜索引擎已經開發出復雜的優先級算法,但 AI 爬蟲似乎仍在不斷發展其網絡內容發現方法。 優先對關鍵內容進行服務器端渲染。?ChatGPT 和 Claude 不執行 JavaScript,因此任何重要內容都應該在服務器端渲染。這包括主要內容(文章、產品信息、文檔)、元信息(標題、描述、分類)和導航結構。SSR、ISR 和 SSG 能確保您的內容對所有爬蟲都是可訪問的。 客戶端渲染仍適用于增強功能。?您可以放心地對非核心的動態元素使用客戶端渲染,比如訪問計數器、交互式UI增強功能、在線聊天小部件和社交媒體信息流。 高效的URL管理比以往任何時候都更重要。?AI 爬蟲的高 404 錯誤率突顯了維護適當重定向、保持站點地圖更新以及在整個網站使用一致的 URL 模式的重要性。 使用 使用 Vercel 的 WAF 來阻止AI爬蟲。?我們的"阻止AI機器人防火墻規則"讓您只需一鍵就能阻止AI爬蟲。這個規則會自動配置您的防火墻以拒絕它們的訪問。 JavaScript 渲染的內容可能缺失。?由于 ChatGPT 和 Claude 不執行 JavaScript,它們對動態網絡應用的響應可能不完整或過時。 注意信息來源。?較高的404錯誤率(>34%)意味著當 AI 工具引用特定網頁時,這些 URL 很可能是錯誤的或無法訪問的。對于重要信息,始終直接驗證來源而不是依賴AI提供的鏈接。 預期更新的不一致性。?雖然 Gemini 利用 Google 的基礎設施進行抓取,但其他 AI 助手顯示出較不可預測的模式。有些可能引用較舊的緩存數據。 有趣的是,即使在向 Claude 或 ChatGPT 請求最新的Next.js文檔數據時,我們通常在 我們的分析顯示,AI 爬蟲已經迅速成為網絡上的重要存在,在 Vercel 的網絡上每月有近 10 億次請求。 然而,在渲染能力、內容優先級和效率方面,它們的行為與傳統搜索引擎有明顯不同。遵循已建立的網絡開發最佳實踐——特別是在內容可訪問性方面——仍然至關重要。
規模和分布
爬蟲位置分布
JavaScript 渲染能力
內容類型優先級
爬蟲效率問題
流量相關性分析
nextjs.org
?的數據:
建議
對于希望被抓取的網站站長
對于不希望被抓取的網站所有者
robots.txt
?來控制爬蟲訪問。robots.txt
?文件對所有爬蟲都有效。通過指定AI爬蟲的用戶代理(user agent)或產品標識(product token)來設置具體規則,以限制對敏感或非必要內容的訪問。要找到需要禁止的用戶代理,您需要查看每個公司自己的文檔(例如,Applebot和OpenAI的爬蟲)。
對于 AI 用戶
nextjs.org
?的服務器日志中也看不到即時的獲取請求。這表明AI模型可能依賴于緩存數據或訓練數據,即使它們聲稱已獲取最新信息。
總結
備注
文章為作者獨立觀點,不代表DLZ123立場。如有侵權,請聯系我們。( 版權為作者所有,如需轉載,請聯系作者 )

網站運營至今,離不開小伙伴們的支持。 為了給小伙伴們提供一個互相交流的平臺和資源的對接,特地開通了獨立站交流群。
群里有不少運營大神,不時會分享一些運營技巧,更有一些資源收藏愛好者不時分享一些優質的學習資料。
現在可以掃碼進群,備注【加群】。 ( 群完全免費,不廣告不賣課!)