做SEO肯定要關注收錄。有收錄,不一定有好的排名;但不收錄,就絕對不存在有排名的可能性。
早前我分享過一些關于網頁收錄的SEO實踐,很多時候是從單個頁面出發,特別講到的是新頁面遲遲不被收錄的情況。而這次的分享是從整站的角度去看總收錄數如何影響SEO。
看網站整體收錄數的意義在于:
1、評估網站整體的健康情況:如果收錄數遠遠低于網站實際網頁數,那往往是因為整個網站質量低。
2、及時監控網站是否出現了大的異常:比如網站被懲罰了、或者錯誤設置noindex標簽/robots文件,都會導致網站收錄數出現驟降。
3、跟進整站SEO優化的效果提升:如果你接手了一個很爛的網站,在做了一輪整體的SEO大優化后,可以通過查看收錄數是否有大幅度提升作為重要的效果衡量指標之一。
查詢整站頁面被谷歌收錄數常用的方式有兩種:
1、site命令,即site:http://domain.com
2、查看Google Search Console的Indexing(中文:編制索引,下面統一用中文的說法)報告
之前收到過以下關于整站收錄的一些問題:
為什么收錄數低于網站實際網頁數?
某些頁面前陣子還被收錄了,但是今天查卻發現收錄沒了。
為什么用site命令查出來的頁面數和Search Console不一致,應該以哪個為準?
Search Console編制索引報告顯示收錄數變動特別大,不知道問題出現在哪里。
Search Console編制索引報告提示我有大量的自動重定向/404頁面,該如何處理?
下面就以Q&A的方式來說說我是怎么處理以上這些問題的。
Q1:為什么收錄數低于網站實際網頁數?
Answer: Google不會收錄你所有的網頁。在Search Console 編制索引報告的幫助文檔,有明確地提到這一點:
所以收錄數比網頁數低并非都是異常,那什么情況才是異常呢?
根據Google的John Mueller的說法:網站 20% 的網頁未被編入索引屬于正常范圍。
也就是說,假設你的網站實際上有100個網頁,收錄的網頁在80個以上,并且你的重點頁面都被收錄了,那你就不需要過于追求更高的收錄率了。
敲重點:必須確保你的重點頁面給谷歌收錄了。
那當發現超過20%以上的網頁不被谷歌收錄,該如何排查呢? 在Google Search Console的編制索引版塊,有很直接地提示網頁未被編入索引的原因。點擊原因細項,可以看到是哪些網頁受到了影響。
如果確定是因為異常操作導致的和技術有關的問題,比如重定向或404,可以把這些異常頁面下載下來,給到網站開發去處理。
如果你發現很多頁面因“已抓取 - 尚未編入索引”和“已抓取 - 尚未編入索引”導致不收錄,通常是因為你的整體網站質量低或者單個頁面質量低。
單個頁面質量低很顯而易見,常見的表現為:原創度低,內容很簡短,廢話較多而有價值的內容少,語言表達不地道甚至有明顯的語法錯誤。
然后你可能會發現,某單個頁面的質量不算很高 ,但也絕對算不上低,符合100%原創度等基本SEO要求,但是也沒有被索引。原因很可能出現在網站整體質量上:谷歌并不是認為你這個頁面質量很低,而是認為你整個網站的質量有點低,因為整體網站質量可以決定網站有多少頁面被編入索引。
提高整站質量可以從內容、技術、外鏈等方面入手,這是一個比較大的范疇,這里不展開說??梢耘e個我自己思考的例子:去年8月谷歌推出helpful content update新搜索算法時,表示“刪除無用的內容可能有助于提高其他內容的排名”。結合到因為整站質量影響單個質量并不是很差的頁面收錄這個問題,我認為刪除無用的頁面是有助于提高質量不算低的頁面收錄。
Q2:某些頁面前陣子還被收錄了,但是今天查卻發現收錄沒了。
Answer:排除技術的原因,那大概率是因為頁面質量低。
但如果是質量問題,為什么之前谷歌還會收錄你的頁面,而不是在第一次抓取的時候就直接不收錄呢?
原因在于:如果谷歌沒有將該頁面編入索引,那么他們不會真正知道它是高質量還是低質量。
有實操過SEO的人可能會發現:有時候新頁面在剛被收錄時,排名還不錯 ;可沒高興幾天,排名比剛收錄的時候跌了好幾頁。
和上面的先索引后取消索引是一個道理,谷歌需要借助一些真實用戶訪問頁面的數據反饋來幫助他們進一步確定該頁面是不是真正的高質量。(注:并非谷歌公開的說明,而是實踐中的觀察)
也就是說,谷歌后來發現你的頁面質量并不好,就從他們的數據庫里把你的頁面給刪除了,所以你發現原本有收錄的頁面現在不被收錄。
可嘗試通過優化內容提高頁面質量,再提交給谷歌審查,看看能不能讓谷歌再收錄。
Q3:為什么用site指令查出來的頁面數和Search Console不一致,應該以哪個為準?
Answer:Google的說法是把site指令作為參考,準確的數據以Search Console索引報告為主。
我之前還專門研究過這個問題。簡單說一下我的研究結論:我認為site指令查出來的收錄數還是非常值得關注的指標。因為有些頁面在Search Console中顯示被收錄了,而用site指令查不出來的時候,在Google搜索引擎搜該頁面的網址也是搜不出來的。換句話說:用site指令查不到收錄的網頁,幾乎不可能獲取到排名和流量。
我們不可能有精力關注到網站的每一個頁面?;卮饐栴}1時強調的一個重點:必須確保你的重點頁面被谷歌收錄了。在這里進一步要強調的重點是:必須確保你的重點頁面用site指令可以查到被收錄。(注:非谷歌官方說法,而是我個人的實踐觀察)
Q4:Search Console編制索引報告顯示收錄數變動特別大,不知道問題出現在哪里?
Answer:以下是我以往排查的方法,供參考
#1 通過路徑:Google Search Console -> 編制索引 -> 網頁 -> 所有已提交的網頁 -> 未編入索引 -> 原因
找到有大量未編入索引的網頁,進一步細分排查。
#2 打開Google 搜索排名更新列表,看看谷歌這段時間是否推出/更新了算法,我的網站是不是剛好有些行為明顯觸犯了算法?
Q5:Search Console編制索引報告提示我有大量的自動重定向/404頁面,該如何處理?
Answer: 這屬于技術SEO的問題。建議SEO人員先自己過一遍,確認是開發的問題,再把問題提交網站開發人員處理。
SEOer還是很有必要懂一些常用的技術SEO操作,因為如果你不懂,直接把問題拋給開發人員,開發人員也很可能不懂。谷歌搜索中心有很全面的教程,我在之前的文章里也分享過我在SEO工作中常用到的技術SEO。
在掌握了一定技術SEO的基礎上,你會發現Search Console編制索引報告里提示的很多關于重定向問題其實是不用管它的。還有404的頁面,谷歌也曾表明網站出現 404 錯誤是正常的,不會將它們視為負面排名因素。
你要做的是結合網站的實際情況,判斷出現的自動重定向或者404頁面等問題,是不是你們有意為之的,會不會影響用戶體驗和谷歌抓取。如果確認沒問題,不用去找開發人員;即使在編制索引報告一直有提示,你也不需要擔心。
比如我網站現在被提示有4.5萬的網頁是重復網頁,但是我的SEO一點都沒有受到影響。
經過排查后,我發現這里的重復網頁大部分是來自我們的登錄頁面,當用戶訪問登錄著陸頁時自動生成的。我找網站開發的同事確認過,實際在網站的后臺沒有這樣的頁面,也查不到為什么會生成這樣的頁面。保險起見,我在robots文件里做了屏蔽。做了屏蔽后,谷歌還是繼續抓,但也會不時刪掉一些之前抓到的這類頁面。長期觀察下來,我確定并不會對我的網站SEO造成負面的影響。
所以當你看到未被編入索引的頁面量特別大,有好幾萬,不要太擔心,有時候是因為谷歌的抓取和判斷沒那么智能。只要確保當前你網站SEO不受影響,對提示的頁面進一步分析和處理就好。
在網頁索引編制報告里,有“所有已知網頁”、“所有已提交的網頁”、“僅未提交的網頁”,以及站點地圖過濾器(如果你有站點地圖的話)幾個選項。
新手看到這些選項可能會有點迷惑。要搞清楚首先需要知道它們的定義是什么,在Search Console幫助文檔有很詳細的解釋。
簡單來說,“所有已提交的網頁”是指在站點地圖中列出的網址。“僅未提交的網頁”是指不在站點地圖列出來的網址。而“所有已知網頁”是“所有已提交的網頁”和“僅未提交的網頁”的總和。
報告默認顯示的是“所有已知網頁”。你很可能會發現不同的篩選器的結果相差非常大。那么我們上面說到網站 20% 的網頁未被編入索引屬于正常范圍,到底是看哪一項?我是看第二項“所有提交的網頁”,我網站的收錄率是93.5%,在正常范圍內。這里需注意:確保把你希望被索引的正常網頁都放到網站地圖里,這樣統計出來的索引率才會準確。
除了以上5個問題,如果你還有哪些關于整站收錄的問題,或者你有不一樣的實踐心得,歡迎留言。
文章為作者獨立觀點,不代表DLZ123立場。如有侵權,請聯系我們。( 版權為作者所有,如需轉載,請聯系作者 )

網站運營至今,離不開小伙伴們的支持。 為了給小伙伴們提供一個互相交流的平臺和資源的對接,特地開通了獨立站交流群。
群里有不少運營大神,不時會分享一些運營技巧,更有一些資源收藏愛好者不時分享一些優質的學習資料。
現在可以掃碼進群,備注【加群】。 ( 群完全免費,不廣告不賣課!)