大家應該都知道,生成式AI是通過對大量數據進行學習和訓練,從而具備內容生成能力(包括文字,圖片,音頻和視頻)的機器學習模型,而這里的“大量數據”就包括我們的網站上的內容。


      而隨著各大公司推出自家的生成式AI后,很多站長可能會考慮的一個問題是:是否需要屏蔽AI Bot 來抓取自己網站的數據?


      在回答這個問題之前,我們先來看一組數據(截止至2023年9月22日),網絡上Top 1000 網站是如何應對這個問題的:





      • ?Top 1000 站點中,25.9%的網站屏蔽了 GPTBot

      • ?其中非常知名的站點有 Pinterest,Amazon,Quora & Indeed

      • 大部分的大型媒體/新聞站點都屏蔽了GPTBot,包括:NYTimes, TheGuardian, CNN, USAToday, BusinessInsider, Reuters, WashingtonPost, NPR, CBS, NBC, Bloomberg, CNBC, ESPN



      而如下圖是從2023.8月份至今,Top 1000 站點中屏蔽了 AI Bot 的網站數量,總體呈上升趨勢。


      數據來源:Originality.ai


      Top 1000 網站列表:https://dataforseo.com/free-seo-stats/top-1000-websites



      我的網站是否應該屏蔽 AI Bot?


      NO!至少對于絕大多數的品牌站和個人站來說,沒必要!


      那你可能會問,為什么這么多的大型網站要屏蔽AI Bot呢?我們認為,主要有三個原因:


      1、屏蔽AI Bot 的這些大型網站多是屬于大型資訊站或知識類站點,從網站屬性的角度考慮,他們希望用戶進入到自己的網站來瀏覽內容,而不是被生成式AI的生成內容搶走流量


      2、這些大型網站并未從產商處獲取到實際的利益


      3、不想為各大廠商提供免費的數據來訓練AI模型


      為什么品牌站和個人站沒必要屏蔽AI Bot?


      對于品牌站和個人站而言,我們的目標是獲取有效流量,最終促成轉化。


      隨著各種生成式AI工具的功能迭代,以及其產商也必須考慮如何激勵網站產出更多高質量的內容為其所用,因此很多生成式AI工具都會在其結果中標注或推薦內容來源頁面,以便用戶可以進入該頁面做更進一步的調研,同時為這些來源頁面背書。


      比如Google Bard



      比如ChatGPT



      比如 Bing Chat



      比如Google SGE



      從本質上來講,生成式AI能夠成為我們的網站獲取更多流量的新渠道。


      所以,我們需要研究的是,如何能夠讓自己的內容更有可能出現在生成式AI結果中,被其引用。


      與其恐懼變化,不如擁抱變化!


      而且,隨著生成式AI的越來越成熟,一定會有越來越多的工具會應用這些流行的機器學習模型,甚至直接調用它們的接口,應用在不同的垂直領域而大放異彩。


      同時,這也意味著,不屏蔽AI Bot抓取網站,能讓我們的內容有更大的可能出現在更多的陣地上!


      如何屏蔽 AI Bot


      當然,如果出于一些特別的考慮,你還是決定在自己的網站上屏蔽 AI Bot,也是有解決辦法的。


      由于AI Bot是會遵循網站 Robots.txt文件中的指令,來確定是否抓取網站中的數據,所以我們通過在Robots.txt文件中增加相應的 Disallow 命令來屏蔽AI Bot代理。


      目前比較流行的AI Bot主要為 ChatGPT,Google Bard和 Claude,所以我們在此僅對如上三個AI Bot來示例如何屏蔽抓取。


      屏蔽ChatGPT的抓取

      User-agent: GPTBot

      Disallow: /

      User-agent: ChatGPT-User

      Disallow: /


      屏蔽 Google Bard的抓取

      User-agent: Google-Extended

      Disallow: /



      Note: 如上指令會同時屏蔽 Google Bard 和 Vertex AI的抓取,Vertex AI 是Google 的機器學習平臺,用于構建和部署基于人工智能的生成式搜索和聊天應用程序。


      外,屏蔽Google-Extended 這個代理并不包括Google SGE,因為Google SGE是Google Search的一部分,想要屏蔽Google SGE的話,必須得把 Googlebot 這個代理屏蔽掉(強烈建議不要屏蔽,這會導致整個網站不被Google抓取)。


      屏蔽 Claude的抓取

      User-agent: Claude-Web

      Disallow: /

      當然,如果你想同時屏蔽如上三個AI Bot 的話,把上述代碼全部粘貼至網站Robots.txt文件中即可。





      END





      點贊(1) 打賞

      評論列表 共有 0 條評論

      暫無評論

      服務號

      訂閱號

      備注【拉群】

      商務洽談

      微信聯系站長

      發表
      評論
      立即
      投稿
      返回
      頂部