如果你發現你的網站放開后卻久久不被抓取收錄,或者被收錄的網頁少之又少,那么,需要注意了,也許,你的網站進行了阻礙搜索引擎爬取和收錄網站/網頁的設置,如何檢查呢?

      第一步,排查Robots.txt文件。

      先科普一下何為Robots.txt文件?

      Robots.txt文件是位于 WordPress 根目錄中的文本文件,它用于讓搜索引擎機器人知道您網站上的哪些頁面應該被抓取,哪些不應該被抓取。一個帶有正確指令的 Robots.txt文件既可以防止爬蟲抓取不必要的內容外,又可確保抓取配額(在給定時間內爬蟲可以抓取網站的最大次數)不會浪費。

      Ok.,大家Get了吧?簡單一句話,Robots.txt就是為了告訴爬蟲應該或不應該爬取你網站的哪些部分。

      那么,如何自查網站的Robots.txt文件?CiCi教大家一個簡單的方法:

      打開瀏覽器,直接在地址欄里輸入:你的域名+robots.txt,如下圖所示。

      Allow就是允許被爬取的網頁,Disallow就是不允許被爬取的網頁。

      前幾天剛接了一個客戶,他說網站做完一年多了,一直沒有被收錄,我一檢查,唉,簡直大無語了,他的robots.txt是這樣的:

      User-agent: *

      disallow: /

      來,給大家當下翻譯:

      user-agent 是用戶代理的意思,行中的星號代表任意爬蟲的意思,也就是所有可能的爬蟲都要按照robots文件中的要求進行合理的抓取網站中的文件、目錄;

      disallow行中的正斜杠就是告訴告訴爬蟲,這個網站的所有網頁都禁止被爬取。

      So,這個網站robots.txt的設置就是禁止所有爬蟲爬取所有網頁,這?簡直就是大寫加粗的難受呀!我的客戶白白浪費掉了一年多的寶貴時間,它本來有很多機會獲取排名和流量的,可惜,可恨!

      如何設置Robots.txt文件呢?不懂代碼的也不要愁,畢竟CiCi擅長幫大家把復雜的事情簡單化,我們可以用幾個簡單的Wordpress插件來搞定:Yoast SEO。

      Yoast SEO擁有超過 500 萬的活躍安裝,是最受歡迎的 SEO 插件之一。它有很多站點優化工具,包括允許用戶創建和編輯 robots.txt 文件的功能。

      插件安裝后,點擊SEO模塊,點擊Tools,選擇File Editor,然后點擊create robots.txt file按鈕并進行編輯保存。

      類似的插件還有All in one SEO,大家自由選擇啦。

      By the way,給大家分享一個測試和驗證 robots.txt的工具:

      https://technicalseo.com/tools/robots-txt/,它能檢查 URL 是否被阻止,哪個指令阻止它以及阻止哪個用戶代理。也還可以檢查頁面的資源(CSS、JavaScript、圖像)是否被禁止爬取。

      第二步,排查 Noindex 標簽

      有時候用的一些插件軟件,會給你加一些流氓Noindex標簽,或者你自己在網站編輯的時候,不小心給一些頁面添加了Noindex標簽。

      何為Noindex標簽?顧名思義,就是告訴爬蟲不要索引收錄的標簽。

      很多時候,你感覺你的網站好內容不少,但是就是不被收錄,這個時候一定要敏銳一些,一旦感覺不對勁,抓緊開始自查!

      如何找到帶有Noindex標簽的網頁?CiCi教你一招,既簡單又精準!

      給網站安裝綁定 Google Search Console,選擇Overview模塊,依次點擊“Indexing”和“Full Report”,

      然后就能看到網頁不被索引的原因,其中有一個原因是Excluded by ‘noindex’ tag,即帶有Noindex標簽的網頁,點擊即可查看具體的網頁,然后自己好好排查即可~

      對于不應該有Noindex標簽的網頁,及時進入后臺進行編輯修改即可。

      想加快索引的話,修改完標簽后可以在 Google Search Console中提交一下,大家可以按照下圖所示進行操作:

      注意:要使noindex規則生效,頁面不得被 robots.txt 文件阻止,并且爬蟲必須可以訪問它。如果頁面被 robots.txt 文件阻止或爬蟲無法訪問該頁面,則爬蟲永遠不會看到?noindex標簽,那么該頁面仍會出現在搜索結果中,例如,如果其他頁面鏈接到它,它的內容仍會被編入索引。

      第三步,設置站點地圖(Sitemap)

      Sitemap是一個文件,用于幫助搜索引擎發現你的網站頁面并且確定抓取的優先級,

      如果你的網站滿足以下三種情況,那么你可能很需要Sitemap:

      1.你的網站很大。通常,在大型網站上,要確保每個頁面都至少被該網站上的一個其他頁面鏈接起來會更加困難。因此,Googlebot 更有可能無法發現您的某些新網頁。

      2.你的網站是新網站,幾乎沒有指向它的外部鏈接。Googlebot 和其他網絡抓取工具通過跟蹤從一個頁面到另一頁面的鏈接來抓取網絡。因此,如果沒有其他網站鏈接到您的網頁,Googlebot 可能不會發現它們。

      3.你的網站有很多多媒體內容(視頻、圖片)或顯示在Google News.中。 Google 可以將Google News.中的其他信息考慮到搜索中。

      對于滿足這些條件的網站,若沒有設置Sitemap,那么 Google 很可能根本就不知道有某些頁面的存在,尤其是某些重點頁面,翻譯成人話就是白干了,要知道,人生最喜歡的事情莫過于白嫖,最討厭的事情莫過于白干。

      如何設置Sitemap?

      很簡單,我們依舊可以利用Google Search Console,登錄后點擊Sitemaps,輸入并點擊SUBMIT進行提交。

      第四步,排查錯誤的Canonical Tag。

      先簡單解釋一下什么是Canonical Tag吧。

      如果你的某個網頁可通過多個網址訪問,或者你的不同網頁有著類似的內容(比如某個網頁既有移動版,又有桌面版),那么 Google 會將這些網頁視為同一個網頁的重復版本。Google 會選擇一個網址作為規范版本并抓取該網址,而將所有其他網址視為重復網址并降低對這些網址的抓取頻率。Canonical Tag就是明確告訴谷歌應該選取哪個網頁作為規范網頁進行抓取收錄,從而減少 Google的抓取工作量,提高主要網頁的抓取收錄與谷歌排名。

      如果Canonical Tag用到了非主要網頁上,則會出現主要頁面不被抓取收錄的問題。還有會造成多個重復頁面的反復抓取,使網站浪費大量抓取預算,影響整個網站的收錄,畢竟地主家也沒有余糧啊。

      關于canonical?Tag的使用與注意事項,感興趣的可以私信我。篇幅問題,這里先不詳細講設置了。

      第五步,修復所有 Nofollow 內部鏈接

      nofollow 的字面意思就是不要跟蹤或索引該特定鏈接。如果恰巧這個網站有很多nofollow的內部鏈接,那就禁止了谷歌對這個網站的頁面進行索引。

      Nofollow和noindex都是要小心使用的。如果有大量 nofollow 鏈接,在谷歌眼中可能就是網站質量問題。在這種情況下,網站可能會被標記為更不自然的網站(more unnatural site),當然這取決于 nofollow 鏈接的嚴重性。

      因為這些 nofollow,就是在告訴谷歌不要真正信任這些特定鏈接。

      所以,一定要嚴肅對待nofollow的使用。

      那就一點都不要有了嗎?當然也不是。

      因為我們總有很多不希望用戶看到的信息,比如私人的網站管理員登錄頁面,我們肯定不希望用戶能看到。

      而且之前的谷歌,只有一種類型的 nofollow 鏈接,但是最近增加了 nofollow 鏈接的分類。

      新分類包括用戶生成的內容 (UGC) 和贊助廣告 (ads)。

      如果這個網站做大量廣告或 UGC(例如博客評論),也要考慮一下是不是要加上一些nofollow。因為博客評論往往會生成大量自動垃圾郵件,現在反垃圾郵件又這么嚴峻,可以考慮加一下。

      第六步,構建強大的內部鏈接

      強大的內鏈,沒錯,就是強大,powerful。

      普通的內鏈和“強大的內鏈”是有區別的。

      普通的內部鏈接只是一個內部鏈接。加一個未必會對排名產生多大的影響。

      但是,如果你本身就有很多高價值頁面,流量很高,權威重,那可以通過內鏈聯系起來。

      為啥要這么做呢,看一下下面:

      1、幫助用戶瀏覽您的網站,增加網站粘性與訪問深度。

      2、從其他具有強權限的頁面傳遞權限。

      3、有助于定義整個網站的架構。

      不過要確保它們功能強大且具有足夠的價值,能幫助目標頁面在搜索引擎結果中競爭才行哈。

      第七步,將頁面提交到 Google Search Console

      如果某個網頁的索引有問題,可以考慮在在 Google Search Console里多提交幾次,提醒谷歌的抓取與索引。

      這樣可以迅速把這個網頁告知谷歌,相較于其他的方式,能更快地讓谷歌注意到這個網頁。

      如果提交的這個頁面沒有任何質量問題的話,通常幾天內就能夠生成索引。

      第八步,提升網站內容質量。

      谷歌最關注的是用戶體驗。

      而只有優質內容才能提供給用戶好的體驗,所以我們要時時刻刻重視網站每個網頁的內容質量,多一些干貨,少一些沒用的車轱轆話。

      畢竟是金子才能長久閃閃發光。

      第九步,適當使用插件

      最后,我們也可以適當的使用一些工具來助力網站的索引收錄,比如Instant Indexing for Google等,這個就不做具體說明了,感興趣的可以私信一起探討。


      聯系CiCi請掃碼加微信!


      獲取知識請掃碼關注微信公眾號!!


      點贊(1) 打賞

      評論列表 共有 0 條評論

      暫無評論

      服務號

      訂閱號

      備注【拉群】

      商務洽談

      微信聯系站長

      發表
      評論
      立即
      投稿
      返回
      頂部