根據對我們是否有用,可以把爬蟲分為兩類,從搜索引擎來的爬蟲,比如Google bot ,Bing bot ,這些爬蟲的作用是爬取網站的內容,收錄內容到搜索引擎,這些爬蟲對網站的流量是有好處的,可以理解為好的,是“益蟲”。
那壞的爬蟲就是AI爬蟲,SEO爬蟲,漏洞掃描爬蟲等。壞的爬蟲會占用服務器的CPU和內存資源,而網站卻得不到任何好處。有的爬蟲會爬取你的網站信息,做出一樣的網站,也可能研究你的資料,然后出售給你的競爭對手。
讓我來一一說明:
如果運行的是VPS或者服務器,你就會知道 CPU 、內存資源和網絡帶寬都很寶貴,它們是你網站飛速運行的保障。
想象一下,當你打開網站的訪問日志,發現每2-3秒訪問你網站的都是爬蟲,而且是無用的爬蟲,這些爬蟲機器人吃掉你網站的CPU和帶寬,你的網站打開越來越慢,甚至影響了Google ,Bing等搜索引擎的爬蟲的正常工作。
如果使用的是共享主機,那就更不用說了,本來硬件資源就得不到保障,還被爬蟲浪費了.....
也行你會說,還好我是用的SAAS建站。(類似Shopify,YY等電商建站系統)。
那你的產品內容,你的博客文章、圖片和視頻也會被人工智能公司抓取并抄襲。這些公司會用抓取的內容來訓練他們的大型語言模型 (LLM),這樣其他人就能輕松地制作出與你內容相似的內容。
更重要的是,像 Ahrefs 和 SEMrush 這樣的 SEO 公司會抓取你的網站,發掘你的外鏈情況,并將這些信息出售給你的競爭對手,出售給那些希望在搜索引擎上超越你的企業....
還有一些漏洞掃描的爬蟲它們都是惡意的,探測你服務器和網站的漏洞,黑掉你的服務器或者更改你網站的內容(掛外鏈等)....
惡意機器人列表:
一、AI 爬蟲
前面說了,現在很多AI公司會抓取的內容來訓練他們的大型語言模型 (LLM)。平時工作中見得最多的就是ChatGPT和ClaudeBot,特別是ChatGPT,完全可以用瘋狂來形容,瘋狂的投喂數據,也難怪ChatGPT的模型做得這么好。
國內的見得最多的是Bytedancespider ,Bytedance是哪家大家應該都明白,他們的網絡爬蟲抓取數據用于訓練其 LLM(大型語言模型),所以字節的豆包還是好用的。不過也會浪費我們大量的服務器資源。
其次就是Aliyun,Ali的模型不太熟悉,也沒用過。
至于其他國內的就比較少見,包括很火的Deepseek,不知道是不爬國外的站,還是有其他的方法,之前有朋友提過Deepseek的蒸餾算法,具體不太清楚。
常見的AI 爬蟲:
anthropic-ai
Applebot-Extended
Bytedancespider
CCBot
ChatGPT
ClaudeBot
cohere-ai
Diffbot
FacebookBot
FriendlyCrawler
Image2dataset
Meta-ExternalAgent
omgilibot
PerplexityBot
Timpibot
二、SEO爬蟲
SEO爬蟲,大多數是爬外鏈的,研究網站的SEO數據。競爭對手可以輕松查詢到你的SEO數據。
因為平時經常做SEO的工作,所以經常看到的幾個爬蟲。
MJ12Bot :Majestic 公司收集外鏈的爬蟲,建議屏蔽。
SemrushBot:Semrush 的爬蟲,大名鼎鼎的Semrush估計很多人都知道,除非你使用他們的服務來跟蹤自己網站的 SEO 排名和反向鏈接,否則建議屏蔽。
AhrefsBot :??Ahrefs 的爬蟲,除非你使用他們的服務來跟蹤自己網站的 SEO 排名和反向鏈接,否則建議屏蔽。
DotBot: ?Moz的爬蟲,除非你使用他們的服務來跟蹤自己網站的 SEO 排名和反向鏈接,否則建議屏蔽。
另外還有幾個偶爾見的SEO爬蟲
DataForSeoBot , 這個堅決屏蔽,就是賣你SEO數據的。
Barkrowler?
BLEXBot
BacklinksExtendedBot
三、安全掃描爬蟲
CensysInspect,Expanse,Internet-measurement
全部屏蔽掉吧。
四、其他機器人和爬蟲
如果加了CDN,可以在 Cloudflare 的制定防火墻(WAF)規則
如果是自己的VPS,服務器,也可以設置Web 服務器配置(Nginx 或 Apache)阻止爬蟲。
為什么不直接將User-agent添加到 robots.txt 中?
因為你提供的“規則”只是建議,許多惡意機器人都不遵守 robots.txt。所以不建議通過設置robots.txt去阻止某些爬蟲的訪問。
文章為作者獨立觀點,不代表DLZ123立場。如有侵權,請聯系我們。( 版權為作者所有,如需轉載,請聯系作者 )

網站運營至今,離不開小伙伴們的支持。 為了給小伙伴們提供一個互相交流的平臺和資源的對接,特地開通了獨立站交流群。
群里有不少運營大神,不時會分享一些運營技巧,更有一些資源收藏愛好者不時分享一些優質的學習資料。
現在可以掃碼進群,備注【加群】。 ( 群完全免費,不廣告不賣課!)