国产91在线观看_国产卡1卡2卡三卡在线_综合久久久久综合_99视频有精品高清视频


本文是 MERJ 和 Vercel 研究實(shí)際數(shù)據(jù)總結(jié)了目前主流 AI 爬蟲的幾個(gè)特征。

注:Vercel 是 Next.js 的前端云平臺(tái);MERJ 是數(shù)據(jù)驅(qū)動(dòng)的營(yíng)銷公司;本文翻譯自 Vercel 的 Blog 文章《The rise of the AI crawler》。

整體上,AI 爬蟲已經(jīng)成為網(wǎng)絡(luò)上的重要存在。在過去一個(gè)月中,OpenAI 的 GPTBot 在 Vercel 網(wǎng)絡(luò)上產(chǎn)生了 5.69 億次抓取,而 Anthropic 的 Claude 緊隨其后,達(dá)到了 3.7 億次

而這 2 個(gè)加起來的請(qǐng)求量只占同期 Googlebot 45 億次抓取的 20%。

規(guī)模和分布

Vercel 網(wǎng)絡(luò)上的 AI 爬蟲流量非常大。在過去的一個(gè)月:

  • Googlebot:Gemini 和 Googlebot 的抓取次數(shù)達(dá)到 45 億次
  • GPTBot (ChatGPT):5.69 億次抓取
  • Claude:3.7 億次抓取
  • AppleBot:3.14 億次抓取
  • PerplexityBot:2440 萬次抓取

GPTBot、Claude、AppleBot 和 PerplexityBot 合計(jì)抓取了近 13 億次,約占 Googlebot 總抓取量的 28%+。

雖然AI 爬蟲尚未達(dá)到 Googlebot 的規(guī)模,但他們已占據(jù)網(wǎng)絡(luò)爬蟲流量的很大部分

爬蟲位置分布

這些 AI 爬蟲都在美國(guó)數(shù)據(jù)中心

  • ChatGPT:得梅因(愛荷華州)、菲尼克斯(亞利桑那州)
  • Claude:哥倫布(俄亥俄州)

相比之下,傳統(tǒng)搜索引擎通常會(huì)將抓取分散到多個(gè)地區(qū)。例如,Googlebot 在美國(guó)七個(gè)不同的地區(qū)運(yùn)營(yíng),包括達(dá)爾斯(俄勒岡州)、康瑟爾布拉夫斯(愛荷華州)和蒙克斯科納(南卡羅來納州)。

JavaScript 渲染能力

AI 爬蟲在 JavaScript 渲染能力方面存在明顯差異。為了驗(yàn)證我們的發(fā)現(xiàn),我們分析了使用不同技術(shù)棧的 Next.js 應(yīng)用程序和傳統(tǒng)網(wǎng)頁應(yīng)用。 調(diào)查結(jié)果一致表明,目前主要的 AI 爬蟲都不渲染 JavaScript。這包括:

  • OpenAI (OAI-SearchBot, ChatGPT-User, GPTBot)
  • Anthropic (ClaudeBot)
  • Meta (Meta-ExternalAgent)
  • 字節(jié)跳動(dòng) ByteDance (Bytespider)
  • Perplexity (PerplexityBot)

研究結(jié)果還顯示:

  • Google 的 Gemini 利用 Googlebot 的能力,因此能夠完整渲染 JavaScript
  • AppleBot 通過基于瀏覽器的爬蟲渲染 JavaScript,類似于 Googlebot。它能處理 JavaScript、CSS、Ajax 請(qǐng)求以及完整頁面渲染所需的其他資源
  • Common Crawl (CCBot),這個(gè)經(jīng)常被用作大語言模型(LLMs)訓(xùn)練數(shù)據(jù)集的爬蟲,不渲染頁面

數(shù)據(jù)表明,雖然 ChatGPT 和 Claude 的爬蟲確實(shí)會(huì)獲取 JavaScript 文件(ChatGPT:11.50%,Claude:23.84% 的請(qǐng)求),但它們并不執(zhí)行這些文件。它們無法讀取客戶端渲染的內(nèi)容

但請(qǐng)注意,包含在初始 HTML 響應(yīng)中的內(nèi)容(如 JSON 數(shù)據(jù)或延遲的 React Server Components)可能仍會(huì)被索引,因?yàn)?AI 模型可以解析非HTML內(nèi)容。

相比之下,Gemini 使用 Google 的基礎(chǔ)設(shè)施,使其具有與我們?cè)?Googlebot 分析中記錄的相同渲染能力,能夠完整處理最新的網(wǎng)頁應(yīng)用

內(nèi)容類型優(yōu)先級(jí)

AI 爬蟲在抓取 nextjs.org 時(shí)表現(xiàn)出明顯的內(nèi)容類型偏好。最明顯的特征有:

  • ChatGPT 優(yōu)先考慮 HTML 內(nèi)容(57.70% 的抓取量)
  • Claude 高度關(guān)注圖片內(nèi)容(35.17% 的總抓取量)
  • 盡管不執(zhí)行 JavaScript 文件,但兩種爬蟲都花費(fèi)大量時(shí)間在這些文件上(ChatGPT:11.50%,Claude:23.84%)

作為對(duì)比,Googlebot 的抓取量(包括 Gemini 和搜索)分布更加均勻:

  • 31.00% HTML 內(nèi)容
  • 29.34% JSON 數(shù)據(jù)
  • 20.77% 純文本
  • 15.25% JavaScript

這些模式表明AI 爬蟲會(huì)收集多樣化的內(nèi)容類型——HTML、圖片,甚至將 JavaScript 文件作為文本收集——這可能是為了訓(xùn)練他們的模型以適應(yīng)各種形式的網(wǎng)頁內(nèi)容。

雖然像 Google 這樣的傳統(tǒng)搜索引擎已經(jīng)針對(duì)搜索索引優(yōu)化了他們的抓取模式,但較新的AI 公司可能仍在完善他們的內(nèi)容優(yōu)先級(jí)策略

爬蟲效率問題

我們的數(shù)據(jù)顯示AI 爬蟲行為存在明顯的低效現(xiàn)象:

  • ChatGPT 有 34.82% 的抓取遇到 404 頁面
  • Claude 表現(xiàn)相似,有 34.16% 的抓取遇到 404 錯(cuò)誤
  • ChatGPT 另外還有 14.36% 的抓取在處理重定向

對(duì) 404 錯(cuò)誤的分析顯示,除去 robots.txt 之外,這些爬蟲經(jīng)常嘗試獲取 /static/ 文件夾中的過期資源。這表明AI 爬蟲需要改進(jìn) URL 選擇和處理策略以避免不必要的抓取

這些高比例的 404 錯(cuò)誤和重定向與 Googlebot 形成鮮明對(duì)比 -Googlebot 僅有 8.22% 的請(qǐng)求遇到 404 錯(cuò)誤,1.49% 的請(qǐng)求遇到重定向。這表明 Google 在優(yōu)化其爬蟲以抓取真實(shí)資源方面確實(shí)有更多經(jīng)驗(yàn)。

流量相關(guān)性分析

我們對(duì)流量模式的分析揭示了爬蟲行為和網(wǎng)站流量之間存在關(guān)聯(lián)性。基于來自nextjs.org?的數(shù)據(jù):

  • 較高自然流量的頁面會(huì)收到更頻繁的爬蟲訪問
  • AI爬蟲在 URL 選擇上存在不可預(yù)測(cè)的情況
  • 較高的 404 錯(cuò)誤率表明AI 爬蟲可能需要改進(jìn)其 URL 選擇和驗(yàn)證流程

雖然傳統(tǒng)搜索引擎已經(jīng)開發(fā)出復(fù)雜的優(yōu)先級(jí)算法,但 AI 爬蟲似乎仍在不斷發(fā)展其網(wǎng)絡(luò)內(nèi)容發(fā)現(xiàn)方法。

建議

對(duì)于希望被抓取的網(wǎng)站站長(zhǎng)

  • 優(yōu)先對(duì)關(guān)鍵內(nèi)容進(jìn)行服務(wù)器端渲染。?ChatGPT 和 Claude 不執(zhí)行 JavaScript,因此任何重要內(nèi)容都應(yīng)該在服務(wù)器端渲染。這包括主要內(nèi)容(文章、產(chǎn)品信息、文檔)、元信息(標(biāo)題、描述、分類)和導(dǎo)航結(jié)構(gòu)。SSR、ISR 和 SSG 能確保您的內(nèi)容對(duì)所有爬蟲都是可訪問的。

  • 客戶端渲染仍適用于增強(qiáng)功能。?您可以放心地對(duì)非核心的動(dòng)態(tài)元素使用客戶端渲染,比如訪問計(jì)數(shù)器、交互式UI增強(qiáng)功能、在線聊天小部件和社交媒體信息流。

  • 高效的URL管理比以往任何時(shí)候都更重要。?AI 爬蟲的高 404 錯(cuò)誤率突顯了維護(hù)適當(dāng)重定向、保持站點(diǎn)地圖更新以及在整個(gè)網(wǎng)站使用一致的 URL 模式的重要性。

對(duì)于不希望被抓取的網(wǎng)站所有者

  • 使用robots.txt?來控制爬蟲訪問。robots.txt?文件對(duì)所有爬蟲都有效。通過指定AI爬蟲的用戶代理(user agent)或產(chǎn)品標(biāo)識(shí)(product token)來設(shè)置具體規(guī)則,以限制對(duì)敏感或非必要內(nèi)容的訪問。要找到需要禁止的用戶代理,您需要查看每個(gè)公司自己的文檔(例如,Applebot和OpenAI的爬蟲)。

  • 使用 Vercel 的 WAF 來阻止AI爬蟲。?我們的"阻止AI機(jī)器人防火墻規(guī)則"讓您只需一鍵就能阻止AI爬蟲。這個(gè)規(guī)則會(huì)自動(dòng)配置您的防火墻以拒絕它們的訪問。

對(duì)于 AI 用戶

  • JavaScript 渲染的內(nèi)容可能缺失。?由于 ChatGPT 和 Claude 不執(zhí)行 JavaScript,它們對(duì)動(dòng)態(tài)網(wǎng)絡(luò)應(yīng)用的響應(yīng)可能不完整或過時(shí)。

  • 注意信息來源。?較高的404錯(cuò)誤率(>34%)意味著當(dāng) AI 工具引用特定網(wǎng)頁時(shí),這些 URL 很可能是錯(cuò)誤的或無法訪問的。對(duì)于重要信息,始終直接驗(yàn)證來源而不是依賴AI提供的鏈接

  • 預(yù)期更新的不一致性。?雖然 Gemini 利用 Google 的基礎(chǔ)設(shè)施進(jìn)行抓取,但其他 AI 助手顯示出較不可預(yù)測(cè)的模式。有些可能引用較舊的緩存數(shù)據(jù)。

有趣的是,即使在向 Claude 或 ChatGPT 請(qǐng)求最新的Next.js文檔數(shù)據(jù)時(shí),我們通常在nextjs.org?的服務(wù)器日志中也看不到即時(shí)的獲取請(qǐng)求。這表明AI模型可能依賴于緩存數(shù)據(jù)或訓(xùn)練數(shù)據(jù),即使它們聲稱已獲取最新信息。

總結(jié)

我們的分析顯示,AI 爬蟲已經(jīng)迅速成為網(wǎng)絡(luò)上的重要存在,在 Vercel 的網(wǎng)絡(luò)上每月有近 10 億次請(qǐng)求。

然而,在渲染能力、內(nèi)容優(yōu)先級(jí)和效率方面,它們的行為與傳統(tǒng)搜索引擎有明顯不同。遵循已建立的網(wǎng)絡(luò)開發(fā)最佳實(shí)踐——特別是在內(nèi)容可訪問性方面——仍然至關(guān)重要。

備注

  • 原文:《The rise of the AI crawler》https://vercel.com/blog/the-rise-of-the-ai-crawler
  • 作者:Giacomo Zecchini 、Alice Alexandra Moore、Malte Ubl、Ryan Siddle


點(diǎn)贊(3) 打賞

評(píng)論列表 共有 0 條評(píng)論

暫無評(píng)論

服務(wù)號(hào)

訂閱號(hào)

備注【拉群】

商務(wù)洽談

微信聯(lián)系站長(zhǎng)

發(fā)表
評(píng)論
立即
投稿
返回
頂部
国产91在线观看_国产卡1卡2卡三卡在线_综合久久久久综合_99视频有精品高清视频

      欧美少妇性生活视频| 欧美视频在线播放一区| 丰满少妇大力进入| 天天干天天曰天天操| 三级视频中文字幕| 激情综合网俺也去| 天天摸天天碰天天添| 日韩av黄色网址| 男人用嘴添女人下身免费视频| 99精品一级欧美片免费播放| 亚洲美女性囗交| 日本黄大片一区二区三区| www.99在线| 中文字幕永久视频| 亚洲一级免费观看| 奇米视频888| 91高清国产视频| 色乱码一区二区三区在线| 手机看片福利日韩| 天天干天天玩天天操| 午夜啪啪小视频| 亚洲天堂av免费在线观看| 亚洲小视频在线播放| 黄色网址在线免费看| 黄色一级视频播放| www.激情网| 久久亚洲中文字幕无码| 黄色一级大片在线观看| 午夜激情av在线| 亚洲综合在线一区二区| 日本中文字幕一级片| 国产成人永久免费视频| 免费看又黄又无码的网站| 欧美三级午夜理伦三级| 亚洲77777| 精品日韩在线播放| 麻豆tv在线播放| 久久综合久久色| 中文字幕 欧美日韩| 国产精品jizz在线观看老狼| 国产亚洲黄色片| 任你操这里只有精品| 亚洲一级免费在线观看| 99re99热| 97国产在线播放| 天天视频天天爽| 成人免费看片'免费看| av天堂永久资源网| 国产一级免费大片| 美脚丝袜脚交一区二区| 日本一本二本在线观看| 国产无遮挡猛进猛出免费软件 | 成人免费观看视频在线观看| www.涩涩涩| 日本xxxxx18| 日韩国产欧美亚洲| 久久人人爽av| 17c丨国产丨精品视频| 欧美伦理片在线看| 国产a级片免费看| 欧美性久久久久| 日本女人高潮视频| 日韩在线第三页| 久久男人资源站| 中文字幕 91| 久久人人爽人人爽人人av| 538任你躁在线精品免费| 被灌满精子的波多野结衣| 久久久久久久久久一区二区| 日韩av综合在线观看| 两性午夜免费视频| 午夜dv内射一区二区| 女人被男人躁得好爽免费视频| 亚洲欧美国产日韩综合| 高清欧美精品xxxxx| 在线观看日本www| 黄色片视频在线播放| 国产资源第一页| 第四色婷婷基地| 国产黄视频在线| 精品视频在线观看一区二区| 久久婷五月综合| 国产一区二区三区精彩视频| 美女av免费观看| 91亚洲精品久久久蜜桃借种| 97在线免费公开视频| 阿v天堂2018| 丰满人妻一区二区三区53号| 五月婷婷六月合| 日韩欧美国产免费| 久久男人资源站| 糖心vlog在线免费观看| 久热在线视频观看| 亚洲激情在线观看视频| 茄子视频成人免费观看| 91免费黄视频| 一本色道久久88亚洲精品综合 | 日本激情视频在线| 欧美色图另类小说| 久久这里只有精品8| 日本一区二区三区四区五区六区| 色婷婷综合网站| av五月天在线| 国产午夜伦鲁鲁| 精品少妇在线视频| 亚洲乱码日产精品bd在线观看| 欧美性受xxxx黒人xyx性爽| 奇米影音第四色| 国产成人综合一区| 特黄特黄一级片| 韩国中文字幕av| 青青草av网站| 欧美成人xxxxx| 国内性生活视频| 精品无码国模私拍视频| 免费网站在线观看视频| 男女爱爱视频网站| 五月天激情图片| www.69av| 欧美一级欧美一级| av免费观看国产| 97国产精东麻豆人妻电影 | 中文字幕在线综合| 在线视频观看一区二区| 亚洲男人天堂2021| 99视频在线观看视频| 好吊色这里只有精品| 精品无码av无码免费专区| 免费cad大片在线观看| 日韩激情视频一区二区| 97超碰在线人人| 北条麻妃69av| 青青在线视频观看| 国产福利在线免费| 手机在线免费毛片| 超级碰在线观看| 久久人人爽人人爽人人av| 男女视频网站在线观看| 欧美亚洲一二三区| 成人免费毛片播放| 亚洲免费黄色网| 国产又粗又硬又长| 尤物av无码色av无码| 91在线视频观看免费| 日本高清免费在线视频| 欧美人与动牲交xxxxbbbb| 欧美 丝袜 自拍 制服 另类| www.xxx亚洲| 91网址在线观看精品| 成人国产一区二区三区| 波多野结衣乳巨码无在线| 亚洲视频在线观看一区二区三区| 夜夜爽久久精品91| 91丨porny丨探花| 久久久久久久久久久久91| 日本三级福利片| 欧美变态另类刺激| 色天使在线观看| 免费视频爱爱太爽了| 日本一极黄色片| 欧美激情第四页| 精品这里只有精品| wwwwwxxxx日本| www.在线观看av| 国产成人av影视| av中文字幕av| 无码内射中文字幕岛国片| 久久视频免费在线| 欧美两根一起进3p做受视频| 亚洲精品偷拍视频| 免费日韩中文字幕| 日本a在线天堂| 日韩av手机版| 国产日韩欧美精品在线观看| 中文字幕第38页| 成人在线观看你懂的| 成人性生生活性生交12| 91亚洲精品国产| 久久出品必属精品| 男女无套免费视频网站动漫| 无颜之月在线看| 岛国毛片在线播放| 国产又大又硬又粗| 伊人网在线免费| 色婷婷狠狠18| 麻豆tv在线播放| 中国一级黄色录像| 午夜视频在线瓜伦| 成 年 人 黄 色 大 片大 全| 九九九九九国产| 成年人午夜视频在线观看| 看一级黄色录像| 国产探花在线观看视频| 黑森林精品导航| 毛片毛片毛片毛片毛片毛片毛片毛片毛片 | 国产又粗又长又爽视频| 中国女人做爰视频| 狠狠97人人婷婷五月| 熟妇熟女乱妇乱女网站| 999热精品视频|