我們在做Google等搜索引擎推廣時一定要讓Google抓取你的網頁內容,這樣才能有被搜索到的可能,那么搜索引擎是如何抓取網頁內容的呢?
Google等搜索引擎旨在為互聯網用戶尋找答案。它們組織互聯網,使你能立即發現你想要搜索相關的結果。為了讓你的網站出現在搜索結果中,你必須讓你的網頁在搜索引擎中獲得排名。這就是為什么搜索引擎優化(SEO)是如此重要。如果你想在搜索引擎結果頁面(SERPs)中出現,你需要一流的SEO技術。
一、?蜘蛛爬蟲
想要網頁能在Google搜索引擎被用戶搜索到首先要讓網頁被搜索引擎收錄,搜索引擎用來爬行和抓取網頁內容的程序叫做蜘蛛爬蟲,簡稱為蜘蛛。搜索引擎為了提高質量和速度,它會放很多蜘蛛一起去爬行和抓取網頁內容。
蜘蛛訪問任何一個網站時,都會先去訪問網站根目錄下的robots.txt文件。如果robots.txt文件禁止搜索引擎抓取某些文件或目錄,蜘蛛將遵守協議,不抓取被禁止的網址。
二、?跟蹤鏈接
為了抓取網上盡量多的頁面,搜索引擎蜘蛛會跟蹤頁面上的鏈接,從一個頁面爬到下一個頁面,就好像蜘蛛在蜘蛛網上爬行一樣。
整個互聯網是由相互鏈接的網站及頁面組成的。當然,由于網站及頁面鏈接結構異常復雜,蜘蛛需要采取一定的爬行策略才能遍歷網上所有頁面。
最簡單的爬行的策略有:深度優先和廣度優先。
1、?深度鏈接
深度優先指當蜘蛛發現一個鏈接時,它就會順著這個鏈接指出的路一直向前爬行,直到前面再也沒其他鏈接,這時就會返回第一個頁面,然后會繼續鏈接再一直往前爬行。
2、?廣度鏈接
從seo角度講鏈接廣度優先的意思是講的蜘蛛在一個頁面發現多個鏈接的時候,不是跟著一個鏈接一直向前,而是把頁面上所有第一層鏈接都爬一遍,然后再沿著第二層頁面上發現的鏈接爬向第三層頁面。
從理論上說,無論是深度優先還是廣度優先,只要給蜘蛛足夠的時間,都能爬完整個互聯網。在實際工作中,沒有什么東西是無限的,蜘蛛的帶寬資源和蜘蛛的時間也是一樣都是有限的,也不可能爬完所有頁面。實際上最大的搜索引擎也只是爬行和收錄了互聯網的一小部分。
3.吸引蜘蛛
蜘蛛程序不可能抓取所有的網頁頁面的,它只會抓取重要的網頁內容,以下幾點就是比較重要的內容:
1、 網站和頁面權重:
定期更新的網站比很久沒有打理的網站流量要高地多! 3、?網站外鏈: 外鏈就是指在別的網站導入自己網站的鏈接。導入鏈接對于網站優化來說是非常重要的一個過程。導入鏈接的質量(即導入鏈接所在頁面的權重)間接影響了我們的網站在搜索引擎中的權重。 |
4.地址庫
搜索引擎會建立一個地址庫,這么做可以很好地避免出現過多抓取或者反復抓取的現象,記錄已經被發現還沒有抓取的頁面,以及已經被抓取的頁面。
地址庫中的URL有以下幾個來源:
(1)?人工錄入的種子網站。 (2)?蜘蛛抓取頁面后,從HTML中解析出新的鏈接URL,與地址庫中的數據進行對比,如果是地址庫中沒有的網址,就存入待訪問地址庫。 (3)?搜索引擎自帶的一種表格提供站長,方便站長提交網址。 |
由于網站的內容經常在變化,因此搜索引擎爬蟲也需要不斷地更新其抓取網頁的內容,這就需要搜索引擎爬蟲按照一定的周期去掃描網站,查看哪些頁面是需要更新的頁面,哪些頁面是新增頁面,哪些頁面是已經過期的死鏈接。
搜索引擎的更新周期對搜索引擎搜索的查全率有很大影響。如果更新周期太長,則總會有一部分新生成的網頁搜索不到;周期過短,技術實現會有一定難度,而且會對帶寬、服務器的資源都有浪費。搜索引擎爬蟲并不是所有的網站都采用同一個周期進行更新,對于一些重要的更新量大的網站,更新的周期短,如有些新聞網站,幾個小時就更新一次;相反,對于一些不重要的網站,更新的周期就長,可能一兩個月才更新一次。
一般來說,搜索引擎爬蟲在更新網站內容的時候,不用把網站網頁重新抓取一遍,對于大部分網頁,只需判斷網頁的屬性(主要是日期),把得到的屬性和上次抓取的屬性相比較,如果一樣則不用更新。
文章為作者獨立觀點,不代表DLZ123立場。如有侵權,請聯系我們。( 版權為作者所有,如需轉載,請聯系作者 )

網站運營至今,離不開小伙伴們的支持。 為了給小伙伴們提供一個互相交流的平臺和資源的對接,特地開通了獨立站交流群。
群里有不少運營大神,不時會分享一些運營技巧,更有一些資源收藏愛好者不時分享一些優質的學習資料。
現在可以掃碼進群,備注【加群】。 ( 群完全免費,不廣告不賣課!)