每個外鏈查詢工具都會存儲各種不同的鏈接。

      如果你需要對整個互聯(lián)網(wǎng)建立索引庫,勢必會在爬行、解析、索引上做出許多選擇。有可能索引的內(nèi)容會有重復的地方。又因為每個公司決策的方式不同,所以也會存在一些差異。

      為了保證數(shù)據(jù)的透明性,我們希望讓用戶知道Ahrefs的鏈接是如何索引的。

      1.什么是鏈接

      2.什么樣的鏈接會被索引

      3.什么樣的域名會被索引

      4.為什么我們看不到所有的鏈接

      什么是鏈接?

      鏈接會在單擊時,將用戶從一個網(wǎng)頁引導到另一個網(wǎng)頁。創(chuàng)建它們的方法有很多,最常見的方法是通過傳統(tǒng)的 HTML 方式。 其中還包含 href 屬性元素。

      鏈接文字

      同時,你還可以通過其他的方式建立鏈接,比如:

      lOnclick

      lButton

      lNg-click

      lOption/value

      l以及更多…

      什么樣的鏈接會被索引?

      在理想的世界中,將任何形式的鏈接都應該被儲存。但是現(xiàn)實世界是谷歌、以及Ahrefs并不會儲存所有類型的鏈接。原因是,如果你想找到對用戶有用的鏈接,從而加載所有的鏈接以及頁面,這樣子效率會非常的低。

      取而代之的是,爬蟲通常會提取頁面、盡可能的渲染它們、然后提取并存儲各種類型的鏈接。所有爬蟲的工作方式都不同,下面就讓我們了解下在Ahrefs是如何處理這些連接的。

      我們儲存的鏈接

      在我們的索引庫中會儲存很多類型的鏈接。

      外部鏈接

      從一個網(wǎng)站到另一個網(wǎng)站的鏈接。這些鏈接是使用帶有 href 屬性的傳統(tǒng) HTML 的 ?標簽進行創(chuàng)建的。

      內(nèi)部鏈接

      從網(wǎng)站上的一頁鏈接到同一網(wǎng)站上的另一頁的鏈接。我們的索引庫中儲存了 22.21 萬億個內(nèi)部鏈接記錄。這比我們的實時的外部鏈接數(shù)要廣泛得多。我們是唯一可以不用自己抓取網(wǎng)站就可以訪問此數(shù)據(jù)的SEO工具。我們在網(wǎng)址評分 (URL Rating) 計算中使用這些數(shù)據(jù),原理類似于谷歌計算 PageRank 的方法。

      如果你要查看我們第一次和最后一次抓取URL的時間,可以在Site Explorer(網(wǎng)站分析)中查看Best by links(按外鏈數(shù)量排序)報告。外部鏈接和內(nèi)部鏈接的數(shù)據(jù)都在里面。

      我們可能會儲存的鏈接

      下面是我們在部分情況下存儲的鏈接形式。

      用 JavaScript 插入的鏈接

      因為谷歌會渲染所有頁面,所以它們可能會將 JavaScript 插入但不在 HTML 代碼中的鏈接納入計算范圍。由于大規(guī)模的渲染比加載頁面 HTML 需要更多的資源。在 Ahrefs 我們每天渲染約8000萬個頁面。這就是為什么我們只會統(tǒng)計一部分用 JavaScript 插入的一些鏈接,而不是所有鏈接。目前我們唯一個會在抓取時渲染頁面的 SEO 工具,因此我們擁有一些其他工具所沒有的鏈接數(shù)據(jù)。

      但是,僅當使用 JavaScript 插入的鏈接為帶 有href 屬性的HTML 元素格式時,我們才對它們進行計數(shù)。你會在外鏈報告中看到這些鏈接標記為“ JS”,如下所示:

      來自具有URL參數(shù)的頁面的鏈接

      參數(shù)類似URL的補充,例如這樣:?tag=something。你可能會在我們的索引數(shù)據(jù)中看到其中一些URL,但是它們通常是顯示不同內(nèi)容的帶參數(shù)URL。在許多情況下,帶有參數(shù)的頁面可能會顯示相同的內(nèi)容。我們有許多系統(tǒng)可以將URL合并為規(guī)范版本,不會讓抓取無限制的進行下去。但那時其他的工具可能不會有類似的保護措施。結(jié)果就是它們可能多次計算了相同的鏈接。

      我們嘗試不存儲的鏈接

      以下是我們盡力避免存儲的鏈接類型。

      來自具有URL參數(shù)的頁面的鏈接

      如上所述,參數(shù)有好有壞。我們盡量不存儲重復的內(nèi)容。

      來自無限抓取路徑中頁面的鏈接

      這些路徑創(chuàng)建了無限數(shù)量的的URL。參數(shù)是它們可以形成的一種方式,但過濾器、動態(tài)內(nèi)容、斷開的鏈接、相對路徑等也會造成這種狀況。如前所述,我們?yōu)檫@些類型的頁面上的鏈接提供了很多保護,盡量使它們不出現(xiàn)在我們的報告中。遵循規(guī)范地址、以及對抓取頁面進行優(yōu)先級排序,只是其中的兩項保護。由于每個索引數(shù)據(jù)都必須審查是否是來自無限抓取路徑的,所以在處理過程中難免會有鏈接數(shù)量增加的情況。

      我們不存儲的鏈接

      下面是是我們從不存儲的鏈接類型。

      PDF或其他文檔中的鏈接

      谷歌將許多文檔格式轉(zhuǎn)換為HTML,并像對其他頁面上一樣對它們進行索引。這意味著谷歌會計算這些文檔中的鏈接。我們不認為目前有任何SEO工具會為這些鏈接建立索引,但我們以后可能會這么做。但同時,我也擔心為此付出的努力和資源是不值得的。因為根據(jù)谷歌網(wǎng)站趨勢分析師 John Mueller 的說法,PDF中的鏈接在網(wǎng)絡搜索中沒有任何實際作用。

      Iframe 中的鏈接

      iframe允許另一個頁面內(nèi)容顯示在當前頁面內(nèi)部。因此,Ahrefs 不計算 iframe 中的任何鏈接。但是,它們依然會向用戶顯示,因此即使內(nèi)容從技術上來說屬于其他頁面,其他工具也可能會將其計算在內(nèi)。谷歌可能會、也可能不會計算這些鏈接。

      來自未建立索引頁面的鏈接

      我們會刪除這些鏈接數(shù)據(jù)。谷歌方面不的同人對待這個也有不同的意見。同時不同的工具可能也會有不同的結(jié)論。

      譯: 沒有索引的頁面永遠不會記錄到索引庫中。但我們會將這個記錄為副本并用于諸如鏈接圖計算之類的。

      來自多個 IP 的相同鏈接

      關于網(wǎng)站的一個有趣事實是,站點可能會通過多個IP地址為同一頁面提供服務。在這種情況下,部分工具的鏈接索引可能會多次計算同一鏈接。但我們不這樣做。我們會將鏈接與它們所在的頁面本生相關聯(lián)。

      從單個頁面到另一頁面的多個鏈接

      目前,我們僅在頁面上記錄鏈接的一種版本。如果你在導航菜單中鏈接到了某個頁面,然后又在正文中做了鏈接,則我們將僅計入其中之一。將來我們可能會更改此設置,以便為用戶提供更多數(shù)據(jù)。谷歌會計算所有版本的鏈接來傳遞 PageRank,但多半只使用一個版本的錨文本。

      其他影響索引鏈接的相關要素

      理解我們?nèi)绾斡嬎沔溄訑?shù)是一回事,但是許多其他的因素也會影響到什么樣內(nèi)容沒有被計算在內(nèi)。

      頁面中存在的鏈接數(shù)量

      我認為我們對每頁鏈接數(shù)并沒有限制,但是我們確實有頁面大小限制,這最終可能會影響我們看到的鏈接數(shù)量。同時谷歌也建議每頁鏈接不要超過幾千個。

      重定向鏈接或規(guī)范化鏈接

      在 Ahrefs,我們信任所有重定向的、有規(guī)范標簽的鏈接,并會著重處理這些鏈接。對于谷歌而言,這更為復雜,因為網(wǎng)站中有許多規(guī)范標簽,通過它們可以確定哪個頁面是作為主導頁面存在的。我們的處理則相對比較簡單,因為不可能知道谷歌是如何看待每種情況,而且如果我們處理規(guī)范化鏈接、重定向鏈接的方式每次都不同的話,會讓我們的用戶很困惑。

      在我們的報告中,這些鏈接會被貼上 “301”、“302”、或是 “Canonical” 的標注:

      什么樣的域名會被索引?

      在Ahrefs中,我們有 Referring domains(反鏈域名)報告,其中顯示了鏈接到網(wǎng)站或網(wǎng)頁的所有域名。

      但是,我們究竟如何計算這些域名的?

      你會認為這個問題很容易回答。就是 domain.com,對不對?不幸的是,由于有很多計算域名的方法,因此這個會復雜一些。一種選擇是將每個注冊的域名都視為獨立個體,這似乎是 Google Search Console 中對其進行匯總的方式。另一個是將每個子域都視為一個獨立個體。你也可以匯總網(wǎng)站的某些部分,同時其他部分區(qū)分處理(比如谷歌就是這么做的),按不同技術對每個部分進行計算,等等。這里就有很多選擇。

      在 Ahrefs 中,我們有大約有 1.75 億個域名經(jīng)過了審核。審核過程包括刪除垃圾域、和拆分一些獨立的子域。在這些子域中,我們確定是由不同的用戶來控制的。為此,我們使用了一個自定義列表來進行區(qū)分,在 https://publicsuffix.org/list/ 上也有類似的公共列表可以參考。

      要注意,不同的定義方法可能導致 referring domains(反鏈域名)數(shù)據(jù)有巨大變化。以下是一些示例(不是Ahrefs)可以算作單獨域的示例:

      l移動端子域名 (m.domain.com, mobile.domain.com 等)

      l國家/語言類子域名(en.domain.com, fr.domain.com, de.domain.com, jp.domain.com 等). 我們的索引中可能有例外,例如 Wikipedia.org,但通常不會這樣。

      l隨機子域名 (support.domain.com, images.domain.com 等)

      外鏈工具的提供者必須做出的另一個決定是,是否應將某些子目錄視為不同的域。例如,我認為大多數(shù)工具會將知名平臺(例如,user1.blogspot.com,user2.blogspot.com)上的不同博客歸為不同的域,因為它們由不同的用戶控制。但是,為什么不對 medium.com/user1 或github.com/user1 這樣的網(wǎng)站執(zhí)行相同的操作?在 Ahrefs,我們雖然目前不這樣做,但是將來我們可能會,因為不同的人可能會控制站點不同的目錄。

      這里的要點是,有很多方法可以計算域名數(shù)量。當你查看計算互聯(lián)網(wǎng)站點的公司的不同數(shù)據(jù)時,這是顯而易見的。根據(jù) Verisign 的數(shù)據(jù),到 2020 年第三季度,所有TLD的注冊域名中有 3.707億個站點。根據(jù) Netcraft 的數(shù)據(jù),到 2020 年第三季度,所有 獨立域名中有 1,229,948,224個站點,活躍站點為 1.938億。根據(jù) Internet Live Stats 的數(shù)據(jù),大約有18 億個站點,當前活躍的站點少于 2 億。顯然,每個公司都有不同的方法來計算域。


      總結(jié)說就是,我們在 Ahrefs 所做的事情就是將我們計算所知道的域名,同時剔除垃圾域名、以及非活躍域名。然后也會記入會為諸如 blogspot.com 之類的網(wǎng)站的子域名。這樣一來,我們的域名總數(shù)就達到了 1.75 億。其他工具可能會以不同的方式執(zhí)行此操作,并得出不同的數(shù)值。

      為什么我們看不到所有的鏈接?

      我們只會在允許抓取的網(wǎng)站上抓取鏈接。如果網(wǎng)站所有者在其 robots.txt 文件中阻止了 Ahrefs 的爬蟲,我們將無法抓取其網(wǎng)站。例如,如果你從 website.com 獲得反向鏈接,而 website.com 阻止了 Ahrefsbot(Ahrefs的爬蟲),則我們將無法抓取其網(wǎng)站,并且這個反向鏈接也不會顯示在Ahrefs 中。IP阻止、來自服務器的用戶代理阻止(與robots.txt不同)、服務器超時、漫游器保護以及許多其他因素也會影響我們對某些網(wǎng)站進行抓取的能力。畢竟大規(guī)模的抓取頁面并不容易。

      我們有多個鏈接索引庫

      每個工具都必須做出有關數(shù)據(jù)存儲和檢索的決策。在Ahrefs,我們會把數(shù)據(jù)分在多個索引庫中。

      lLive(現(xiàn)存的) — 當前仍然存在于頁面上的鏈接。這最好地代表了當前的數(shù)據(jù)狀態(tài),這也是目前用戶認為最有用的數(shù)據(jù)。

      lRecent(近期的) — 過去3–4個月內(nèi),我們在頁面上抓取到的鏈接。

      lHistorical(歷史的) — 我們見過的所有鏈接。這將是最全面的列表,但其中包含許多當前已經(jīng)不再存在的鏈接。


      你可以在 referring domain(反鏈域名)報告中切換查看這些索引數(shù)據(jù):

      其他的工具可能選擇顯示所有他們曾經(jīng)看到的數(shù)據(jù),雖然這意味著它們可能顯示了很多鏈接,但其中的許多鏈接可能不再存在。

      最后

      我們希望你——我們的用戶,了解更多關于我們?nèi)绾嗡饕龜?shù)據(jù)的信息。這樣你就可以做出明智的決定。我們也希望你們能及時讓我們知道你的建議和意見、以及其原因。


      翻譯作品,原作者:Patrick Stox


      點贊(3) 打賞

      評論列表 共有 0 條評論

      暫無評論

      服務號

      訂閱號

      備注【拉群】

      商務洽談

      微信聯(lián)系站長

      發(fā)表
      評論
      立即
      投稿
      返回
      頂部