我的郵箱偶爾會收到下圖這樣的郵件,提醒我某個站點的頁面因為“noindex”標簽存在的緣故,導致沒辦法被收錄。

      剛開始收到這類郵件時,我是會直接將其刪除的。畢竟我自己很清楚,我的站點已經開放爬取,無論是 robots 文件還是具體的頁面上,都不存在 noindex 標簽的。

      但是類似這樣的郵件,收到的次數多了之后,我就比較好奇到底是什么原因,會老是導致搜索引擎認為我的頁面拒絕索引。

      加上前幾天看到 Google Search Central 官方頻道上發布了這樣一條視頻,于是想搞清楚問題原因的興趣更濃了。

      那首先第一個問題,noindex 標簽來自哪里?

      基本四種主流的渠道,我們所用的 CMS 系統的源代碼、主題或插件使用的 JS 代碼,主題或者插件所跨域引用的 JS 代碼,以及網站的緩存(插件緩存與 CDN 緩存)。

      逐一簡單說明下。

      其實 CMS 系統源碼層面的問題很好解決,類似我們平時經常使用使用的 WordPress 這種系統,其 noindex 標簽的開關就在網站的“設置”區域。

      只需要簡單檢查下網站的 robots 文件,看看里面是怎么顯示的便知道問題所在了。甚至更簡單一點,直接將網頁源代碼打開,在里面搜索“noindex”關鍵詞,當沒有出現匹配結果便表示一切正常了。

      至于網站所引用的 JS 代碼,不管是本地文件引用還是跨域文件引用,我覺得問題都好定位。

      方法同上,直接在加載完成的網頁上搜索“noindex”關鍵詞。如果出現了結果匹配,就表示肯定是哪個插件有點小毛病。找到這個文件,再從文件定位到插件,去看看具體什么問題。

      上面幾種渠道排查完,就基本只剩下緩存這個需要排查的點了。

      兩個方面,一是 CDN 緩存,二是本地插件生成的緩存。

      對于 CND 緩存的網頁內容是不是存在問題,判斷方式也簡單,直接用幾個國家的 IP 地址分別訪問一下,看看源代碼里有沒有問題 。

      如果確實有問題的話,那直接在 CDN 服務商處請求重新緩存。甚至最簡單的辦法,關閉 CDN 服務,問題自然而然就解決了。

      而網站插件所生成的頁面緩存,定位的邏輯與上面一樣。

      但是要注意一個問題,就是我們去梳理問題點的時候,最好用無痕瀏覽器(或者換個瀏覽器),不登錄管理員賬戶,再去逐一排查。

      緩存插件這塊的坑真的太多了,尤其是當插件版本更新、主題版本更新導致彼此不兼容時,你都不知道問題出在哪。

      而且一旦涉及到前端輸出代碼壓縮,JS 代碼壓縮成一個統一文件時,問題就基本纏繞在一塊了。


      點贊(1) 打賞

      評論列表 共有 0 條評論

      暫無評論

      服務號

      訂閱號

      備注【拉群】

      商務洽談

      微信聯系站長

      發表
      評論
      立即
      投稿
      返回
      頂部