GoogleBot簡析：抓取速率優化指南（技術向）

933 閱讀 0 評論 3 點贊

Google Bot^[1]的工作是在網絡上發現網站、抓取和找到頁面并將其添加到Google的索引中（出現在搜索頁面）。但是網絡空間非常大，Google Bot在抓取任何給定網站時只有有限的時間和資源，所以優化抓取速度很重要。

但從 Gary Illyes 近期的播客上說到，谷歌不會直接 follow 鏈接^[2]，而是先取鏈接，將它們收集到數據庫中，然后再去逐個檢查它們，如果有了解爬蟲是什么的話，可以再去了解一下爬蟲的工作機制，以及各種爬取比如深度、廣度、權重爬取策略等。

為什么要關注抓取速率？抓取速率直接影響 Google 發現、索引和排名網站內容的速度。

googlebot爬取頁面的流程

怎么看爬取速率？

登錄?Google Search Console^[3]?即可：

1.?在左側導航菜單中，找到并點擊“設置”（Settings）。
2.?在“設置”頁面上，找到“抓取統計信息”（Crawl Stats）^[4]并點擊進入。

GSC打開抓取統計信息

怎么優化谷歌爬蟲抓取？

??Robots.txt：這個看?robots 教程^[5]就好，它具體會指明理應爬取什么。
??利用 Sitemaps:?站點地圖^[6]可以幫助 Googlebot 了解站點的結構和重要頁面的優先級，但一定要注意，站點地圖不能有重復、異常的頁面。除此之外，Priority 也是很重要的，例如，將暢銷產品或新上架產品的優先級設置為高，將庫存較少或即將下架的產品優先級設置為低。Shopify 對 sitemap 做了基礎的分類，這也是一種方式：

??URL 參數：URL參數是附加在網頁地址（URL）后面的查詢字符串，用于傳遞信息或指令給服務器。通常，URL參數以問號???開始，參數之間用?&?分隔，比如/page?category=shoes&color=red。如果你用了大量的查詢參數，又沒有指定規范化標簽^[7]，就會讓谷歌不斷爬取不同參數的 URL，從而造成資源浪費。同樣的，如果你有大量的重復內容，也需要使用 canonical URL。
??避免無限爬取：?無限滾動的分頁可能會導致Googlebot浪費資源在抓取不必要的頁面上。這一點你可以看下谷歌的分頁加載規范^[8]。當然，以上 2 點有很多人也來用作有意或者無意的蜘蛛陷阱^[9]（Spider trap）——一種會在網站上陷入無限循環或重復抓取的情況。
??監控抓取錯誤：?在抓取統計信息中，會顯示當前的響應情況、信息，可以逐個點擊進入查看。
Googlebot爬取頁面的狀態
??服務器端因素：如果遇到了 DNS問題或服務器阻塞等問題，也會可能產生抓取問題，這是一個坑點，有時會導致網站所有者誤以為問題出在Googlebot上，所以可以先判斷服務器有沒有問題、分析日志的錯誤，是否因為抓取速率或者服務器返回了錯誤。
??If-Amendment-since 頭: 這個 header 可以讓 Googlebot 檢查頁面是否發生了更改，通過比較服務器返回的 Last-Modified 時間與 GoogleBot 本地緩存的頁面時間，而無需再次下載整個內容，從而節省帶寬和資源。

5 個谷歌爬蟲抓取的認知誤區

誤區1. 網站越大，Googlebot 就會抓取越多的頁面。

Googlebot 的抓取是基于算法和優先級的，它會優先抓取重要、高質量、更新頻繁的頁面，而不是簡單地根據網站大小來決定抓取量。

誤區2. 抓取越多，網站權重越高

普遍認為，谷歌機器人(Googlebot)越來越多的爬蟲行為意味著網站質量越來越高。但這種假設具有誤導性，僅僅因為 Googlebot 經常抓取網站并不一定意味著內容是好的。這也可能是由于其他因素，例如：

??被入侵的網站: 如果一個網站被入侵，Googlebot 可能會抓取它更頻繁索引新的網址創建的掛馬中毒頁面、外部惡意鏈接或者無效頁面。
??靜態內容: 如果一個網站一段時間沒有改變，Googlebot 可能會降低其爬行頻率，但并不代表內容不行。

誤區3. Googlebot 只抓取文本內容？

Googlebot 有不同等級的爬蟲，谷歌爬蟲還可以抓取和理解圖片、視頻、JavaScript 等多種類型的內容。但這不代表你就可以隨心所欲用客戶端渲染之類的“現代化”前端操作，必要的 SEO 頁面規范還是要遵循的，靜態化永遠第一。

誤區4. 增加網站內容就會自動提高 Googlebot 的抓取頻率

雖然新內容可能會吸引 Googlebot 更頻繁地訪問網站，但抓取頻率還受到其他因素的影響，如網站質量、更新頻率、服務器性能等。另外，如果你的內容質量不佳（純 AI、無個人見解），也會導致谷歌判定網站權重下降，從而導致抓取速率和頻率下降。

誤區5. 可以通過人工方式強制 Googlebot 更頻繁地抓取網站

有這種方法，但比較灰黑帽 SEO^[10]，一般不會用，因為對于網站有傷害。實際上，Googlebot 的抓取頻率由算法決定，人工干預通常無效，甚至可能適得其反。還有種說法是，降低抓取頻率可以提高排名，這也是錯誤的，新內容無法被及時索引是非常大的 SEO 問題。

Google Bot谷歌爬蟲的一些FAQs

??要禁止 Googlebot 抓取一些網頁？?使用?robots.txt 文件^[11]，指引各種搜索引擎的爬蟲遵循規范（雖然不一定會遵循）。
??不希望 Google 將某個或者某些網頁編入索引？使用?noindex，禁止編入索引，并配合?GSC 的刪除頁面功能^[12]。
??需要完全阻止抓取工具或用戶訪問某個網頁？請使用其他方法，例如密碼保護^[13]，但從 SEO 角度，請不要使用地區保護方式（比如只限制某個國家地區訪問或 IP 屏蔽），以防 Googlebot 混淆。
??爬蟲爬太快了，壓力太大？Google 會自行確定最佳的網站抓取速度，如果你想要讓抓取速度在短時間內減慢^[14]，則應向抓取請求返回 500、503 或?429^[15]?HTTP 響應狀態代碼（而非 200），如果實在不行，可以提交過度抓取報告^[16]來降低爬取速率。
??Googlebot 會判斷性能分數嗎？不會，谷歌使用真實的 Chrome 使用數據來引入有關特定頁面的核心網絡生命周期的數據。其中包括?LCP、FID 和 CLS 分數^[17]。Googlebot 抓取并不是 Google 獲取此數據的來源，而是瀏覽器的實際訪問行為。

谷歌爬蟲算是非常基礎且老生常談的話題，Google 官方文檔和各類資料都很齊全，遇到問題就具體情況具體分析。

參考鏈接

[1]?Google Bot:?https://developers.google.com/search/docs/crawling-indexing/googlebot?hl=zh-cn
[2]?谷歌不會直接 follow 鏈接:?https://www.seroundtable.com/google-follow-links-37892.html
[3]?Google Search Console:?https://search.google.com/search-console
[4]?“抓取統計信息”（Crawl Stats）:?https://search.google.com/search-console/settings/crawl-stats
[5]?robots 教程:?https://developers.google.com/search/docs/crawling-indexing/robots/robots_txt?hl=zh_cn
[6]?站點地圖:?https://developers.google.com/search/docs/crawling-indexing/url-structure?hl=zh_cn
[7]?規范化標簽:?https://www.semrush.com/blog/canonical-url-guide/
[8]?分頁加載規范:?https://developers.google.com/search/docs/specialty/ecommerce/pagination-and-incremental-page-loading?hl=zh-cn
[9]?蜘蛛陷阱:?https://yoast.com/spider-trap/
[10]?灰黑帽 SEO:?https://seo.yiguotech.com/archives/what-is-white-hat-seo
[11]?robots.txt 文件:?https://developers.google.com/search/docs/crawling-indexing/robots/intro?hl=zh-cn
[12]?GSC 的刪除頁面功能:?https://search.google.com/search-console/removals
[13]?其他方法，例如密碼保護:?https://developers.google.com/search/docs/crawling-indexing/control-what-you-share?hl=zh-cn
[14]?讓抓取速度在短時間內減慢:?https://developers.google.com/search/docs/crawling-indexing/reduce-crawl-rate?hl=zh-cn
[15]?429:?https://www.webfx.com/web-development/glossary/http-status-codes/what-is-a-429-status-code/
[16]?提交過度抓取報告:?https://search.google.com/search-console/googlebot-report?hl=zh-cn
[17]?LCP、FID 和 CLS 分數:?https://seo.yiguotech.com/archives/seo-web-core-vital-inp
[18]?谷歌搜索中心近期的播客: Crawl smarter, not harder:?https://youtu.be/UTAo-mfM75o
[19]?Gary Illyes在Linkedin上的關于GoogleBot的討論:?https://www.linkedin.com/posts/garyillyes_crawling-smarter-not-harder-activity-7228608152844337152-4H2b/

文章為作者獨立觀點，不代表DLZ123立場。如有侵權,請聯系我們。( 版權為作者所有，如需轉載，請聯系作者 )

網站運營至今，離不開小伙伴們的支持。為了給小伙伴們提供一個互相交流的平臺和資源的對接，特地開通了獨立站交流群。群里有不少運營大神，不時會分享一些運營技巧，更有一些資源收藏愛好者不時分享一些優質的學習資料。

現在可以掃碼進群，備注【加群】。 ( 群完全免費，不廣告不賣課！)

點贊(3) 打賞

本文分類：SEM
本文標簽：Googlebot
瀏覽次數：933 次瀏覽
發布日期：2024-10-28 09:00:22
原文鏈接：https://mp.weixin.qq.com/s/rrd5c3IEtFN6KQ263Z3sFg

国产91在线观看_国产卡1卡2卡三卡在线_综合久久久久综合_99视频有精品高清视频

GoogleBot簡析：抓取速率優化指南（技術向）

怎么看爬取速率？

怎么優化谷歌爬蟲抓取？