很多獨立站在運營中都忽略了一個至關重要的問題。
      爬蟲(也叫BOT ,Crawler)

      根據對我們是否有用,可以把爬蟲分為兩類,從搜索引擎來的爬蟲,比如Google bot ,Bing bot ,這些爬蟲的作用是爬取網站的內容,收錄內容到搜索引擎,這些爬蟲對網站的流量是有好處的,可以理解為好的,是“益蟲”。

      那壞的爬蟲就是AI爬蟲,SEO爬蟲,漏洞掃描爬蟲等。壞的爬蟲會占用服務器的CPU和內存資源,而網站卻得不到任何好處。有的爬蟲會爬取你的網站信息,做出一樣的網站,也可能研究你的資料,然后出售給你的競爭對手。

      讓我來一一說明:

      如果運行的是VPS或者服務器,你就會知道 CPU 、內存資源和網絡帶寬都很寶貴,它們是你網站飛速運行的保障。

      想象一下,當你打開網站的訪問日志,發現每2-3秒訪問你網站的都是爬蟲,而且是無用的爬蟲,這些爬蟲機器人吃掉你網站的CPU和帶寬,你的網站打開越來越慢,甚至影響了Google ,Bing等搜索引擎的爬蟲的正常工作。

      如果使用的是共享主機,那就更不用說了,本來硬件資源就得不到保障,還被爬蟲浪費了.....

      也行你會說,還好我是用的SAAS建站。(類似Shopify,YY等電商建站系統)。

      那你的產品內容,你的博客文章、圖片和視頻也會被人工智能公司抓取并抄襲。這些公司會用抓取的內容來訓練他們的大型語言模型 (LLM),這樣其他人就能輕松地制作出與你內容相似的內容

      更重要的是,像 Ahrefs 和 SEMrush 這樣的 SEO 公司會抓取你的網站,發掘你的外鏈情況,并將這些信息出售給你的競爭對手,出售給那些希望在搜索引擎上超越你的企業....

      還有一些漏洞掃描的爬蟲它們都是惡意的,探測你服務器和網站的漏洞,黑掉你的服務器或者更改你網站的內容(掛外鏈等)....

      惡意機器人列表:

      一、AI 爬蟲

      前面說了,現在很多AI公司會抓取的內容來訓練他們的大型語言模型 (LLM)。平時工作中見得最多的就是ChatGPT和ClaudeBot,特別是ChatGPT,完全可以用瘋狂來形容,瘋狂的投喂數據,也難怪ChatGPT的模型做得這么好。

      國內的見得最多的是Bytedancespider ,Bytedance是哪家大家應該都明白,他們的網絡爬蟲抓取數據用于訓練其 LLM(大型語言模型),所以字節的豆包還是好用的。不過也會浪費我們大量的服務器資源。

      其次就是Aliyun,Ali的模型不太熟悉,也沒用過。

      至于其他國內的就比較少見,包括很火的Deepseek,不知道是不爬國外的站,還是有其他的方法,之前有朋友提過Deepseek的蒸餾算法,具體不太清楚。

      常見的AI 爬蟲:

      anthropic-ai

      Applebot-Extended

      Bytedancespider

      CCBot

      ChatGPT

      ClaudeBot

      cohere-ai

      Diffbot

      FacebookBot

      FriendlyCrawler

      Image2dataset

      Meta-ExternalAgent

      omgilibot

      PerplexityBot

      Timpibot

      二、SEO爬蟲

      SEO爬蟲,大多數是爬外鏈的,研究網站的SEO數據。競爭對手可以輕松查詢到你的SEO數據。

      因為平時經常做SEO的工作,所以經常看到的幾個爬蟲。

      MJ12Bot :Majestic 公司收集外鏈的爬蟲,建議屏蔽。

      SemrushBot:Semrush 的爬蟲,大名鼎鼎的Semrush估計很多人都知道,除非你使用他們的服務來跟蹤自己網站的 SEO 排名和反向鏈接,否則建議屏蔽。

      AhrefsBot :??Ahrefs 的爬蟲,除非你使用他們的服務來跟蹤自己網站的 SEO 排名和反向鏈接,否則建議屏蔽。

      DotBot: ?Moz的爬蟲,除非你使用他們的服務來跟蹤自己網站的 SEO 排名和反向鏈接,否則建議屏蔽。

      另外還有幾個偶爾見的SEO爬蟲

      DataForSeoBot , 這個堅決屏蔽,就是賣你SEO數據的。

      Barkrowler?

      BLEXBot

      BacklinksExtendedBot

      三、安全掃描爬蟲

      CensysInspect,Expanse,Internet-measurement

      全部屏蔽掉吧。

      四、其他機器人和爬蟲

      Amazonbot ? 亞馬遜的爬蟲,據說是用來改進AMZ的服務。也是超級耗流量的,建議刪除
      PetalBot 華為的爬蟲。
      Githubbot?Github的爬蟲
      還有一些掃描專利,版權的爬蟲。
      五、為什么沒見過某些搜索引擎的爬蟲
      有的搜索引擎會帶來流量,但沒見過爬蟲,比如Duckduckgo、Yahoo等。
      那是因為Duckduckgo、Yahoo用的Bing的數據。
      如何屏蔽爬蟲:
      最好的兩種屏蔽方法:

      如果加了CDN,可以在 Cloudflare 的制定防火墻(WAF)規則

      如果是自己的VPS,服務器,也可以設置Web 服務器配置(Nginx 或 Apache)阻止爬蟲。

      并非所有機器人都遵網站的 robots.txt 規則,所以不建議只設置robots.txt

      為什么不直接將User-agent添加到 robots.txt 中?

      因為你提供的“規則”只是建議,許多惡意機器人都不遵守 robots.txt。所以不建議通過設置robots.txt去阻止某些爬蟲的訪問。

      今天的文章就寫到這里,希望對你有幫助。如果覺得寫得還行,請幫忙轉發,分享。
      歡迎找我私聊,歡迎加我交流。
      我的vx 6860145 ,不用寒暄,直接開聊。



      點贊(8) 打賞

      評論列表 共有 0 條評論

      暫無評論

      服務號

      訂閱號

      備注【拉群】

      商務洽談

      微信聯系站長

      發表
      評論
      立即
      投稿
      返回
      頂部