Google Bot[1]的工作是在網(wǎng)絡(luò)上發(fā)現(xiàn)網(wǎng)站、抓取和找到頁面并將其添加到Google的索引中(出現(xiàn)在搜索頁面)。但是網(wǎng)絡(luò)空間非常大,Google Bot在抓取任何給定網(wǎng)站時(shí)只有有限的時(shí)間和資源,所以優(yōu)化抓取速度很重要。
但從 Gary Illyes 近期的播客上說到,谷歌不會直接 follow 鏈接[2],而是先取鏈接,將它們收集到數(shù)據(jù)庫中,然后再去逐個(gè)檢查它們,如果有了解爬蟲是什么的話,可以再去了解一下爬蟲的工作機(jī)制,以及各種爬取比如深度、廣度、權(quán)重爬取策略等。
為什么要關(guān)注抓取速率?抓取速率直接影響 Google 發(fā)現(xiàn)、索引和排名網(wǎng)站內(nèi)容的速度。
怎么看爬取速率?
登錄?Google Search Console[3]?即可:
1.?在左側(cè)導(dǎo)航菜單中,找到并點(diǎn)擊“設(shè)置”(Settings)。
2.?在“設(shè)置”頁面上,找到“抓取統(tǒng)計(jì)信息”(Crawl Stats)[4]并點(diǎn)擊進(jìn)入。
怎么優(yōu)化谷歌爬蟲抓取?
??Robots.txt:這個(gè)看?robots 教程[5]就好,它具體會指明理應(yīng)爬取什么。
??利用 Sitemaps:?站點(diǎn)地圖[6]可以幫助 Googlebot 了解站點(diǎn)的結(jié)構(gòu)和重要頁面的優(yōu)先級,但一定要注意,站點(diǎn)地圖不能有重復(fù)、異常的頁面。除此之外,Priority 也是很重要的,例如,將暢銷產(chǎn)品或新上架產(chǎn)品的優(yōu)先級設(shè)置為高,將庫存較少或即將下架的產(chǎn)品優(yōu)先級設(shè)置為低。Shopify 對 sitemap 做了基礎(chǔ)的分類,這也是一種方式:
??URL 參數(shù):URL參數(shù)是附加在網(wǎng)頁地址(URL)后面的查詢字符串,用于傳遞信息或指令給服務(wù)器。通常,URL參數(shù)以問號?
?
?開始,參數(shù)之間用?&
?分隔,比如/page?category=shoes&color=red。如果你用了大量的查詢參數(shù),又沒有指定規(guī)范化標(biāo)簽[7],就會讓谷歌不斷爬取不同參數(shù)的 URL,從而造成資源浪費(fèi)。同樣的,如果你有大量的重復(fù)內(nèi)容,也需要使用 canonical URL。??避免無限爬取:?無限滾動(dòng)的分頁可能會導(dǎo)致Googlebot浪費(fèi)資源在抓取不必要的頁面上。這一點(diǎn)你可以看下谷歌的分頁加載規(guī)范[8]。當(dāng)然,以上 2 點(diǎn)有很多人也來用作有意或者無意的蜘蛛陷阱[9](Spider trap)——一種會在網(wǎng)站上陷入無限循環(huán)或重復(fù)抓取的情況。
-
??監(jiān)控抓取錯(cuò)誤:?在抓取統(tǒng)計(jì)信息中,會顯示當(dāng)前的響應(yīng)情況、信息,可以逐個(gè)點(diǎn)擊進(jìn)入查看。
Googlebot爬取頁面的狀態(tài) ??服務(wù)器端因素:如果遇到了 DNS問題或服務(wù)器阻塞等問題,也會可能產(chǎn)生抓取問題,這是一個(gè)坑點(diǎn),有時(shí)會導(dǎo)致網(wǎng)站所有者誤以為問題出在Googlebot上,所以可以先判斷服務(wù)器有沒有問題、分析日志的錯(cuò)誤,是否因?yàn)樽ト∷俾驶蛘叻?wù)器返回了錯(cuò)誤。
??If-Amendment-since 頭: 這個(gè) header 可以讓 Googlebot 檢查頁面是否發(fā)生了更改,通過比較服務(wù)器返回的 Last-Modified 時(shí)間與 GoogleBot 本地緩存的頁面時(shí)間,而無需再次下載整個(gè)內(nèi)容,從而節(jié)省帶寬和資源。
5 個(gè)谷歌爬蟲抓取的認(rèn)知誤區(qū)
誤區(qū)1. 網(wǎng)站越大,Googlebot 就會抓取越多的頁面。
Googlebot 的抓取是基于算法和優(yōu)先級的,它會優(yōu)先抓取重要、高質(zhì)量、更新頻繁的頁面,而不是簡單地根據(jù)網(wǎng)站大小來決定抓取量。
誤區(qū)2. 抓取越多,網(wǎng)站權(quán)重越高
普遍認(rèn)為,谷歌機(jī)器人(Googlebot)越來越多的爬蟲行為意味著網(wǎng)站質(zhì)量越來越高。但這種假設(shè)具有誤導(dǎo)性,僅僅因?yàn)?Googlebot 經(jīng)常抓取網(wǎng)站并不一定意味著內(nèi)容是好的。這也可能是由于其他因素,例如:
??被入侵的網(wǎng)站: 如果一個(gè)網(wǎng)站被入侵,Googlebot 可能會抓取它更頻繁索引新的網(wǎng)址創(chuàng)建的掛馬中毒頁面、外部惡意鏈接或者無效頁面。
??靜態(tài)內(nèi)容: 如果一個(gè)網(wǎng)站一段時(shí)間沒有改變,Googlebot 可能會降低其爬行頻率,但并不代表內(nèi)容不行。
誤區(qū)3. Googlebot 只抓取文本內(nèi)容?
Googlebot 有不同等級的爬蟲,谷歌爬蟲還可以抓取和理解圖片、視頻、JavaScript 等多種類型的內(nèi)容。但這不代表你就可以隨心所欲用客戶端渲染之類的“現(xiàn)代化”前端操作,必要的 SEO 頁面規(guī)范還是要遵循的,靜態(tài)化永遠(yuǎn)第一。
誤區(qū)4. 增加網(wǎng)站內(nèi)容就會自動(dòng)提高 Googlebot 的抓取頻率
雖然新內(nèi)容可能會吸引 Googlebot 更頻繁地訪問網(wǎng)站,但抓取頻率還受到其他因素的影響,如網(wǎng)站質(zhì)量、更新頻率、服務(wù)器性能等。另外,如果你的內(nèi)容質(zhì)量不佳(純 AI、無個(gè)人見解),也會導(dǎo)致谷歌判定網(wǎng)站權(quán)重下降,從而導(dǎo)致抓取速率和頻率下降。
誤區(qū)5. 可以通過人工方式強(qiáng)制 Googlebot 更頻繁地抓取網(wǎng)站
有這種方法,但比較灰黑帽 SEO[10],一般不會用,因?yàn)閷τ诰W(wǎng)站有傷害。實(shí)際上,Googlebot 的抓取頻率由算法決定,人工干預(yù)通常無效,甚至可能適得其反。還有種說法是,降低抓取頻率可以提高排名,這也是錯(cuò)誤的,新內(nèi)容無法被及時(shí)索引是非常大的 SEO 問題。
Google Bot谷歌爬蟲的一些FAQs
??要禁止 Googlebot 抓取一些網(wǎng)頁??使用?robots.txt 文件[11],指引各種搜索引擎的爬蟲遵循規(guī)范(雖然不一定會遵循)。
??不希望 Google 將某個(gè)或者某些網(wǎng)頁編入索引?使用?
noindex
,禁止編入索引,并配合?GSC 的刪除頁面功能[12]。??需要完全阻止抓取工具或用戶訪問某個(gè)網(wǎng)頁?請使用其他方法,例如密碼保護(hù)[13],但從 SEO 角度,請不要使用地區(qū)保護(hù)方式(比如只限制某個(gè)國家地區(qū)訪問或 IP 屏蔽),以防 Googlebot 混淆。
??爬蟲爬太快了,壓力太大?Google 會自行確定最佳的網(wǎng)站抓取速度,如果你想要讓抓取速度在短時(shí)間內(nèi)減慢[14],則應(yīng)向抓取請求返回 500、503 或?429[15]?HTTP 響應(yīng)狀態(tài)代碼(而非 200),如果實(shí)在不行,可以提交過度抓取報(bào)告[16]來降低爬取速率。
??Googlebot 會判斷性能分?jǐn)?shù)嗎?不會,谷歌使用真實(shí)的 Chrome 使用數(shù)據(jù)來引入有關(guān)特定頁面的核心網(wǎng)絡(luò)生命周期的數(shù)據(jù)。其中包括?LCP、FID 和 CLS 分?jǐn)?shù)[17]。Googlebot 抓取并不是 Google 獲取此數(shù)據(jù)的來源,而是瀏覽器的實(shí)際訪問行為。
谷歌爬蟲算是非常基礎(chǔ)且老生常談的話題,Google 官方文檔和各類資料都很齊全,遇到問題就具體情況具體分析。
參考鏈接
[1]
?Google Bot:?https://developers.google.com/search/docs/crawling-indexing/googlebot?hl=zh-cn[2]
?谷歌不會直接 follow 鏈接:?https://www.seroundtable.com/google-follow-links-37892.html[3]
?Google Search Console:?https://search.google.com/search-console[4
]?“抓取統(tǒng)計(jì)信息”(Crawl Stats):?https://search.google.com/search-console/settings/crawl-stats[5]
?robots 教程:?https://developers.google.com/search/docs/crawling-indexing/robots/robots_txt?hl=zh_cn[6]
?站點(diǎn)地圖:?https://developers.google.com/search/docs/crawling-indexing/url-structure?hl=zh_cn[7]
?規(guī)范化標(biāo)簽:?https://www.semrush.com/blog/canonical-url-guide/[8]
?分頁加載規(guī)范:?https://developers.google.com/search/docs/specialty/ecommerce/pagination-and-incremental-page-loading?hl=zh-cn[9]
?蜘蛛陷阱:?https://yoast.com/spider-trap/[10]
?灰黑帽 SEO:?https://seo.yiguotech.com/archives/what-is-white-hat-seo[11]
?robots.txt 文件:?https://developers.google.com/search/docs/crawling-indexing/robots/intro?hl=zh-cn[12]
?GSC 的刪除頁面功能:?https://search.google.com/search-console/removals[13]
?其他方法,例如密碼保護(hù):?https://developers.google.com/search/docs/crawling-indexing/control-what-you-share?hl=zh-cn[14]
?讓抓取速度在短時(shí)間內(nèi)減慢:?https://developers.google.com/search/docs/crawling-indexing/reduce-crawl-rate?hl=zh-cn[15]
?429:?https://www.webfx.com/web-development/glossary/http-status-codes/what-is-a-429-status-code/[16]
?提交過度抓取報(bào)告:?https://search.google.com/search-console/googlebot-report?hl=zh-cn[17]
?LCP、FID 和 CLS 分?jǐn)?shù):?https://seo.yiguotech.com/archives/seo-web-core-vital-inp[18]
?谷歌搜索中心近期的播客: Crawl smarter, not harder:?https://youtu.be/UTAo-mfM75o[19]
?Gary Illyes在Linkedin上的關(guān)于GoogleBot的討論:?https://www.linkedin.com/posts/garyillyes_crawling-smarter-not-harder-activity-7228608152844337152-4H2b/
文章為作者獨(dú)立觀點(diǎn),不代表DLZ123立場。如有侵權(quán),請聯(lián)系我們。( 版權(quán)為作者所有,如需轉(zhuǎn)載,請聯(lián)系作者 )

網(wǎng)站運(yùn)營至今,離不開小伙伴們的支持。 為了給小伙伴們提供一個(gè)互相交流的平臺和資源的對接,特地開通了獨(dú)立站交流群。
群里有不少運(yùn)營大神,不時(shí)會分享一些運(yùn)營技巧,更有一些資源收藏愛好者不時(shí)分享一些優(yōu)質(zhì)的學(xué)習(xí)資料。
現(xiàn)在可以掃碼進(jìn)群,備注【加群】。 ( 群完全免費(fèi),不廣告不賣課!)