????Google 搜索是一個全自動搜索引擎,它使用網絡爬蟲定期探索網絡以查找要添加到索引中的頁面。搜索結果中列出的絕大多數頁面都不是手動提交的,是網絡爬蟲瀏覽網絡時自動找到并添加的。?
      ????請務必注意,Google 官方稱不接受付款以更頻繁地抓取網站或將其排名更高。即使您網頁遵循 Google 為網站所有者制定的指南和政策,Google 也不保證它會抓取、索引或提供相關的網頁。


      Google 搜索的三個階段
      Google 搜索分三個階段工作,并非所有頁面都能通過每個階段:
      1.抓取:Google 使用自動化抓取工具從互聯網上找到頁面并下載文本、圖像和視頻
      2.索引:谷歌分析頁面上的文本、圖像和視頻等,并將信息存儲在谷歌索引(一個大型數據庫)中。
      3.提供搜索結果:當用戶在 Google 上搜索時,Google 會返回與用戶查詢相關的信息。

      抓取
      ????第一階段是找出網絡上存在哪些頁面。?谷歌的中央注冊表不可能包含所有網頁,因此谷歌必須不斷尋找和更新頁面,并將它們添加到其已知頁面列表中,這個過程稱為“URL 發現”。

      ????一旦 Google 發現頁面URL,它可能會訪問(或“抓取”)該頁面以找出其中的內容。?執行抓取的程序稱為 Googlebot(也稱為機器人、機器人或蜘蛛)。Googlebot 使用算法過程來確定要抓取哪些網站、抓取頻率以及從每個網站抓取多少頁面。谷歌的爬蟲程序也被編程為盡量不要太快地爬取網站以避免超載。此機制基于網站的響應(例如,HTTP 500 錯誤意味著“減速”)和 Search Console 中的設置。

      ????但是,Googlebot 不會抓取它發現的所有頁面。某些頁面可能被網站所有者禁止抓取,其他頁面可能無法在未登錄站點的情況下訪問,并且其他頁面可能與之前抓取的頁面重復。

      ????在抓取過程中,Google 會呈現頁面并使用最新版本Chrome 運行它找到的任何 JavaScript,類似于瀏覽器呈現訪問頁面的方式。渲染很重要,網站通常依賴 JavaScript 將內容帶到頁面,如果不渲染,Google 可能看不到該內容。

      Googlebot 訪問網站的一些常見問題包括:
      • 服務器處理網站的問題

      • 網絡問題

      • robots.txt 指令阻止 Googlebot 訪問頁面


      索引
      ? ? 抓取頁面后,Google 會嘗試了解該頁面的內容。此階段稱為索引,它包括處理和分析文本內容和關鍵內容標簽和屬性,例如 <title> 元素和 alt 屬性、圖像、視頻等。

      ? ? 在索引過程中,Google 會確定一個頁面是互聯網上另一個頁面的副本還是規范頁面。規范是確定頁面可能顯示在搜索結果中。為了選擇規范,谷歌首先將在互聯網上找到的具有相似內容的頁面進行聚類,然后選擇最能代表該組的頁面該組中的其他頁面是可以在不同搜索環境中提供替代版本。


      ??? Google 還會收集有關規范頁面及其內容的信號,依據信號在搜索結果中提供該頁面。信號包括頁面的語言、內容所在的國家/地區、頁面的可用性等


      ????收集到的有關規范頁面及其集群的信息可能存儲在 Google 索引中(這是一個托管在數千臺計算機上的大型數據庫)。并非 Google 處理的每個頁面都會被編入索引。


      索引還取決于頁面的內容及其元數據。一些常見的索引問題可能包括:

      • 頁面內容質量低

      • 機器人元指令不允許索引

      • 網站的設計可能會使索引變得困難


      提供搜索結果

      ????當用戶輸入查詢時,谷歌機器會在索引中搜索匹配頁面,并返回谷歌認為質量最高且與用戶最相關的結果。相關性由數百個因素決定,其中可能包括用戶的位置、語言和設備(桌面或電話)等信息。例如,搜索“自行車維修店”會向巴黎用戶顯示與向香港用戶顯示不同的結果。


      ??? Search Console 可能會告訴您某個頁面已編入索引,但您在搜索結果中看不到它。這可能是因為:

      • 頁面內容的內容與用戶無關

      • 內容質量低

      • 機器人元指令阻止服務



      點贊(4) 打賞

      評論列表 共有 0 條評論

      暫無評論

      服務號

      訂閱號

      備注【拉群】

      商務洽談

      微信聯系站長

      發表
      評論
      立即
      投稿
      返回
      頂部