獨立站運營中被忽略的重要問題

872 閱讀 0 評論 8 點贊

很多獨立站在運營中都忽略了一個至關重要的問題。

爬蟲（也叫BOT ，Crawler）

根據對我們是否有用，可以把爬蟲分為兩類，從搜索引擎來的爬蟲，比如Google bot ，Bing bot ，這些爬蟲的作用是爬取網站的內容，收錄內容到搜索引擎，這些爬蟲對網站的流量是有好處的，可以理解為好的，是“益蟲”。

那壞的爬蟲就是AI爬蟲，SEO爬蟲，漏洞掃描爬蟲等。壞的爬蟲會占用服務器的CPU和內存資源，而網站卻得不到任何好處。有的爬蟲會爬取你的網站信息，做出一樣的網站，也可能研究你的資料，然后出售給你的競爭對手。

讓我來一一說明：

如果運行的是VPS或者服務器，你就會知道 CPU 、內存資源和網絡帶寬都很寶貴，它們是你網站飛速運行的保障。

想象一下，當你打開網站的訪問日志，發現每2-3秒訪問你網站的都是爬蟲，而且是無用的爬蟲，這些爬蟲機器人吃掉你網站的CPU和帶寬，你的網站打開越來越慢，甚至影響了Google ，Bing等搜索引擎的爬蟲的正常工作。

如果使用的是共享主機，那就更不用說了，本來硬件資源就得不到保障，還被爬蟲浪費了.....

也行你會說，還好我是用的SAAS建站。(類似Shopify，YY等電商建站系統)。

那你的產品內容，你的博客文章、圖片和視頻也會被人工智能公司抓取并抄襲。這些公司會用抓取的內容來訓練他們的大型語言模型 (LLM)，這樣其他人就能輕松地制作出與你內容相似的內容。

更重要的是，像 Ahrefs 和 SEMrush 這樣的 SEO 公司會抓取你的網站，發掘你的外鏈情況，并將這些信息出售給你的競爭對手，出售給那些希望在搜索引擎上超越你的企業....

還有一些漏洞掃描的爬蟲它們都是惡意的，探測你服務器和網站的漏洞，黑掉你的服務器或者更改你網站的內容（掛外鏈等）....

惡意機器人列表：

一、AI 爬蟲

前面說了，現在很多AI公司會抓取的內容來訓練他們的大型語言模型 (LLM)。平時工作中見得最多的就是ChatGPT和ClaudeBot，特別是ChatGPT，完全可以用瘋狂來形容，瘋狂的投喂數據，也難怪ChatGPT的模型做得這么好。

國內的見得最多的是Bytedancespider ，Bytedance是哪家大家應該都明白，他們的網絡爬蟲抓取數據用于訓練其 LLM（大型語言模型），所以字節的豆包還是好用的。不過也會浪費我們大量的服務器資源。

其次就是Aliyun，Ali的模型不太熟悉，也沒用過。

至于其他國內的就比較少見，包括很火的Deepseek，不知道是不爬國外的站，還是有其他的方法，之前有朋友提過Deepseek的蒸餾算法，具體不太清楚。

常見的AI 爬蟲:

anthropic-ai

Applebot-Extended

Bytedancespider

CCBot

ChatGPT

ClaudeBot

cohere-ai

Diffbot

FacebookBot

FriendlyCrawler

Image2dataset

Meta-ExternalAgent

omgilibot

PerplexityBot

Timpibot

二、SEO爬蟲

SEO爬蟲，大多數是爬外鏈的，研究網站的SEO數據。競爭對手可以輕松查詢到你的SEO數據。

因為平時經常做SEO的工作，所以經常看到的幾個爬蟲。

MJ12Bot ：Majestic 公司收集外鏈的爬蟲，建議屏蔽。

SemrushBot：Semrush 的爬蟲，大名鼎鼎的Semrush估計很多人都知道，除非你使用他們的服務來跟蹤自己網站的 SEO 排名和反向鏈接，否則建議屏蔽。

AhrefsBot ：??Ahrefs 的爬蟲，除非你使用他們的服務來跟蹤自己網站的 SEO 排名和反向鏈接，否則建議屏蔽。

DotBot: ?Moz的爬蟲，除非你使用他們的服務來跟蹤自己網站的 SEO 排名和反向鏈接，否則建議屏蔽。

另外還有幾個偶爾見的SEO爬蟲

DataForSeoBot ，這個堅決屏蔽，就是賣你SEO數據的。

Barkrowler?

BLEXBot

BacklinksExtendedBot

三、安全掃描爬蟲

CensysInspect，Expanse，Internet-measurement

全部屏蔽掉吧。

四、其他機器人和爬蟲

Amazonbot ? 亞馬遜的爬蟲，據說是用來改進AMZ的服務。也是超級耗流量的，建議刪除

PetalBot 華為的爬蟲。

Githubbot?Github的爬蟲

還有一些掃描專利，版權的爬蟲。

五、為什么沒見過某些搜索引擎的爬蟲

有的搜索引擎會帶來流量，但沒見過爬蟲，比如Duckduckgo、Yahoo等。

那是因為Duckduckgo、Yahoo用的Bing的數據。

如何屏蔽爬蟲：

最好的兩種屏蔽方法：

如果加了CDN，可以在 Cloudflare 的制定防火墻(WAF)規則

如果是自己的VPS，服務器，也可以設置Web 服務器配置（Nginx 或 Apache）阻止爬蟲。

并非所有機器人都遵網站的 robots.txt 規則，所以不建議只設置robots.txt

為什么不直接將User-agent添加到 robots.txt 中？

因為你提供的“規則”只是建議，許多惡意機器人都不遵守 robots.txt。所以不建議通過設置robots.txt去阻止某些爬蟲的訪問。

今天的文章就寫到這里，希望對你有幫助。如果覺得寫得還行，請幫忙轉發，分享。

歡迎找我私聊，歡迎加我交流。

我的vx 6860145 ，不用寒暄，直接開聊。

文章為作者獨立觀點，不代表DLZ123立場。如有侵權,請聯系我們。( 版權為作者所有，如需轉載，請聯系作者 )

網站運營至今，離不開小伙伴們的支持。為了給小伙伴們提供一個互相交流的平臺和資源的對接，特地開通了獨立站交流群。群里有不少運營大神，不時會分享一些運營技巧，更有一些資源收藏愛好者不時分享一些優質的學習資料。

現在可以掃碼進群，備注【加群】。 ( 群完全免費，不廣告不賣課！)

點贊(8) 打賞

本文分類：實戰分享
本文標簽：無
瀏覽次數：872 次瀏覽
發布日期：2025-05-14 08:05:39
原文鏈接：https://mp.weixin.qq.com/s/rro8p4pyVmEhO7UmLkUXuw

獨立站運營中被忽略的重要問題

評論列表共有 0 條評論

發表評論取消回復

獨立站運營中被忽略的重要問題

亞馬遜新規已嚴格執行！賣家未提交直接限制發貨！

謹防郵件欺詐

網站SEO優化層面：FAQ的重要性以及如何優化

寵物界的“河馬體”，靠給狗狗拍照撐起千萬美金的生意！

評論列表 共有 0 條評論

發表評論 取消回復

評論列表共有 0 條評論

發表評論取消回復