撞見女廁所的男人，誰在笑，誰在叫，詳解 robots.txt 規則

1220 閱讀 0 評論 83 點贊

大家好！我是SEO小平，微信號直接復制?Xiao_Ping_Up?，或者掃描二維碼

當尖叫與奸笑撕破女廁所的平靜 —— 是標識牌誤導讓老實人誤入歧途？還是法外狂徒硬闖？

你的獨立站 robots.txt 正面臨和【廁所指示牌】同樣困境：爬蟲大軍中混雜著迷路的「誤闖者」也有蓄謀已久的「偷窺狂」。

你的獨立站 robots.txt 文檔就好像是一個廁所的指示牌，告訴了男人們進哪一邊，女人們進哪一邊。但是你可能把這個標識牌寫錯了，導致男人們走錯路跑到了女廁所。另外，也有可能是指示牌是正確的，遇到一個根本不遵守指示牌指引的流氓故意硬闖進來的。

當谷歌，Bing ，Yandex這些正規的搜索引擎進入網站，搜索引擎的爬蟲蜘蛛進入你的網站第一個訪問的文檔就是 robots.txt?，他們會根據robots.txt 指引的規則路線來爬取你的網站。

當黑客，或者暴力蜘蛛進入你網站，他根本不會看你的robots.txt 指引，直接開始他的猖狂行為。這種情況獨立站運營是毫無辦法的，除非給你造成重大損失，此時只能搜集證據，告上法庭。看下面的案例，百度都拿這種情況沒辦法，只能告他。

既然流氓我們只能告他，那我們該怎么防止老實人【誤闖禁區】呢？robots這么重要，作為獨立站運營我們該怎么編輯這個文檔，怎么規定爬行規則。今天SEO小平就詳細給你分析robots的全面知識。

怎么修改網站的 robots.xtx 文檔

分2部分 Shopify 與 WordPress（Yoast）的路徑指南

1. Shopify 平臺的 robots.txt 修改流程

Shopify 為商家提供了編輯 robots.txt 文件的功能，以此對搜索引擎爬蟲的抓取范圍進行自主調控，具體操作步驟如下：

登錄 Shopify 管理后臺
使用商家賬號登錄 Shopify 店鋪的管理頁面。
進入主題編輯界面
點擊頁面中的 “在線商店” 選項，隨后選擇 “主題”。在主題頁面中，找到正在使用的 “實時主題” 板塊，點擊其旁邊的 “操作” 按鈕，并選擇 “編輯代碼”。
創建 robots.txt 模板
在代碼編輯界面左側的文件目錄中，找到 “模板” 部分，點擊 “添加新模板”。此時會彈出一個選項框，將 “創建新模板用于” 的選項更改為 “robots.txt”，最后點擊 “創建模板”。Shopify 會自動生成一個名為 “robots.txt.liquid” 的文件，這個文件包含了店鋪默認的 robots.txt 規則。
編輯 robots.txt 內容
在生成的 “robots.txt.liquid” 文件中，你可以根據實際需求修改規則。比如，若要阻止特定搜索引擎爬蟲訪問某個目錄，可以添加類似 “Disallow: / 特定目錄名 /” 的指令；若要添加網站地圖鏈接，可使用 “Sitemap: https:// 你的域名 /sitemap.xml” 的格式進行添加。完成修改后，點擊保存，新的規則便會生效。

2. 借助 Yoast 插件修改 WordPress 的 robots.txt

Yoast SEO 插件是 WordPress 生態中一款強大的 SEO 優化工具，利用它可以便捷地對 robots.txt 文件進行修改：

安裝并激活 Yoast SEO 插件
登錄 WordPress 網站的后臺管理界面，點擊 “插件” 菜單，選擇 “添加新插件”。在搜索框中輸入 “Yoast SEO”，找到該插件后點擊 “安裝” 按鈕，安裝完成后再點擊 “激活”。
進入文件編輯器
在 WordPress 后臺左側菜單中點擊 “Yoast SEO”，在展開的選項中選擇 “工具”，然后點擊 “文件編輯器”。若 WordPress 禁用了文件編輯功能，該菜單選項可能不會出現，此時需要先在服務器層面或通過主機提供商開啟文件編輯權限。
編輯 robots.txt
點擊 “創建 robots.txt 文件” 按鈕（若已存在該文件，則直接顯示文件內容），Yoast SEO 會展示生成的默認 robots.txt 內容。在這里，你可以對文件進行編輯操作，例如添加或刪除特定的 “Disallow”“Allow” 指令等。修改完成后，點擊保存即可。

無論是WordPress 還是Shopify 只要修改了robots.txt要第一時間到谷歌GSC后臺來更新，刷新看看是不是你更新的最新版本的robots.txt

本來robots.txt就是給谷歌蜘蛛看的，所以要確保最新版的文檔要展示給蜘蛛，谷歌經常有24小時緩存，你要主動去刷新。

如下圖是GSC后臺截圖：

SEO小平陪跑課學員的線上課程有詳細視頻告訴你們怎么操作。加我微信直接復制?Xiao_Ping_Up了解陪跑詳情

下面SEO小平把robots.txt的復雜理論詳細闡述在以下文章中：

一、基礎規范：從命名到緩存的底層邏輯

1. 命名與位置：爬蟲識別的 “門檻”

命名規則
文件名必須嚴格為小寫的robots.txt，大小寫錯誤（如Robots.TXT）會導致爬蟲直接忽略文件內容，進而引發抓取失控。
存儲位置
文件需放置在網站根目錄（如https://example.com/robots.txt），子目錄存儲（如/pages/robots.txt）無效。此外，不同協議（HTTP/HTTPS）、主機名或子域名（如shop.example.com）需單獨配置獨立的 robots.txt 文件，避免規則沖突。

2. 路徑與指令的大小寫敏感機制

路徑匹配
Disallow和Allow指令中的 URL 路徑區分大小寫（如/folder/與/Folder/視為不同規則），錯誤的大小寫會導致規則失效。
爬蟲名稱匹配
谷歌對User-agent值（如Googlebot）不區分大小寫，但其他搜索引擎可能敏感，建議統一使用小寫規范。

3. 緩存機制：修改生效的 “時間差”

谷歌通常緩存 robots.txt 內容長達 24 小時，若遇服務器錯誤（如 5xx 狀態碼），緩存時間可能更長。
可通過Cache-Control響應頭的max-age指令調整緩存周期，或借助 Google Search Console（GSC）請求加速刷新。

二、核心指令：精準控制抓取行為的 “工具箱”

1. User-agent：定位目標爬蟲

通配符規則
User-agent: *匹配所有遵守協議的爬蟲，規則優先級低于具體爬蟲聲明（如Googlebot）。
各種爬蟲細分
針對不同功能的谷歌爬蟲（如Googlebot-Image負責圖片抓取），可單獨配置規則，實現精細化控制。

2. Disallow 與 Allow：禁止與放行的博弈

禁止抓取
Disallow: /可阻止指定爬蟲訪問全站；路徑支持文件（如/private.html）、目錄（如/admin/）或通配符模式（如/*?sessionid=*禁止含會話 ID 的 URL）。
精準放行

3. 優先級邏輯：最長匹配與沖突解決

路徑長度優先
當同一 URL 匹配多條規則時，路徑前綴最長的規則生效。例如：Allow: /folder/page（長度 12）優于Disallow: /folder/（長度 8）。
沖突處理
若路徑長度相同（如Allow: /page與Disallow: /page），谷歌遵循 “限制性最小” 原則，優先執行Allow。

4. 通配符高級應用：* 與 $ 的組合藝術

*?匹配任意字符
可用于禁止含特定參數的 URL（如/*?color=阻止含顏色過濾參數的頁面）或文件類型（如/*.pdf禁止所有 PDF 文件）。
$?匹配路徑結尾
精準區分目錄與文件（如Allow: /search/$僅允許根目錄的search頁面，排除/search/results.html）。

三、策略對比：robots.txt 與其他 SEO 工具的協同

抓取/索引控制方法對比表

控制方法	主要目的	實現位置	對抓取的影響	對索引的影響	谷歌SEO適用場景
`robots.txt Disallow`	阻止抓取	網站根目錄?`robots.txt`?文件	阻止爬蟲訪問指定URL/路徑	間接影響：可能仍被索引（無描述），但內容未被讀取	管理抓取預算，阻止訪問后臺、測試區、重復參數URL；不用于阻止索引
`noindex` ?Meta標簽	阻止索引	HTML頁面的?`<head>`?部分	頁面必須可抓取	明確阻止頁面出現在搜索結果中	阻止HTML頁面（如感謝頁、低質量內容頁）被索引，但允許爬蟲讀取頁面
`X-Robots-Tag: noindex`	阻止索引	服務器HTTP響應頭	資源必須可抓取	明確阻止資源（包括非HTML文件如PDF、圖片）出現在搜索結果中	阻止非HTML文件被索引；對HTML頁面也有效，可用于大規模應用或無法修改HTML頭部的情況
`rel="canonical"` ?標簽	指定首選URL，處理重復內容	HTML頁面的?`<head>`?部分或HTTP響應頭	頁面必須可抓取	幫助谷歌整合相似頁面的信號到首選URL，減少重復內容索引問題	處理因URL參數、打印版本等產生的重復或高度相似內容，將權重集中到規范版本