搜索引擎的工作原理

1243 閱讀 0 評(píng)論 1 點(diǎn)贊

　　有人說(shuō)搜索引擎技術(shù)似乎不需要本地化。這是完全不了解這個(gè)領(lǐng)域的人說(shuō)的。當(dāng)然，說(shuō)實(shí)話，如果有人說(shuō)谷歌在中文本地化方面做得非常好，我可以部分同意，同意的比例可能比谷歌工程師還少。但我相信谷歌的工程師也會(huì)告訴你，搜索引擎需要本地化。

　　今天寫(xiě)一篇關(guān)于搜索引擎的技術(shù)機(jī)制和市場(chǎng)競(jìng)爭(zhēng)的一些特點(diǎn)的科普文章。當(dāng)然，作為從事或者對(duì)流量運(yùn)營(yíng)感興趣的朋友，你可以從另一個(gè)角度來(lái)理解這篇文章。

　　搜索引擎的核心技術(shù)架構(gòu)包括以下三個(gè)部分：一是蜘蛛/爬蟲(chóng)技術(shù)；第二，指數(shù)技術(shù)；三是查詢呈現(xiàn)技術(shù)；當(dāng)然，我不是搜索引擎的架構(gòu)師。我只能膚淺地做一個(gè)結(jié)構(gòu)性的分割。

　　1.蜘蛛，又稱爬蟲(chóng)，是一種從互聯(lián)網(wǎng)上抓取和存儲(chǔ)信息的技術(shù)。

　　很多不明所以的人對(duì)搜索引擎的信息收錄有很多誤解，以為是有償收錄，或者有什么其他特殊的投稿技巧。事實(shí)上，他們不是。搜索引擎通過(guò)互聯(lián)網(wǎng)上一些知名網(wǎng)站抓取內(nèi)容并分析鏈接，然后有選擇地抓取鏈接中的內(nèi)容，再對(duì)鏈接進(jìn)行分析。以此類推，通過(guò)有限的入口，他們基于彼此的鏈接，形成了強(qiáng)大的信息抓取能力。

　　有些搜索引擎本身也有鏈接提交入口，但基本上，并不是主要的入口。不過(guò)作為創(chuàng)業(yè)者，建議了解一下相關(guān)信息。百度和google都有站長(zhǎng)平臺(tái)和管理背景，這里的很多內(nèi)容需要非常非常認(rèn)真的對(duì)待。

　　反過(guò)來(lái)，在這個(gè)原則下，一個(gè)網(wǎng)站只有被其他網(wǎng)站鏈接，才能被搜索引擎抓取。如果這個(gè)網(wǎng)站沒(méi)有外部鏈接，或者外部鏈接在搜索引擎中被認(rèn)為是垃圾或者無(wú)效鏈接，那么搜索引擎可能不會(huì)抓取他的頁(yè)面。

　　而分析判斷搜索引擎是否或何時(shí)抓取了你的頁(yè)面，只能通過(guò)服務(wù)器上的訪問(wèn)日志來(lái)查詢。如果是cdn的話，會(huì)比較麻煩。但是無(wú)論如何在網(wǎng)站中嵌入代碼，比如cnzz、百度統(tǒng)計(jì)或者google ?analytics，都無(wú)法獲取蜘蛛抓取的信息，因?yàn)檫@些信息不會(huì)觸發(fā)這些代碼的執(zhí)行。

　　推薦的日志分析軟件是awstats。

　　十幾年前，分析百度蜘蛛的抓取軌跡和更新策略是很多草根站長(zhǎng)的日常功課。比如某知名80后上市公司董事長(zhǎng)，現(xiàn)在身價(jià)幾十億，當(dāng)年在一個(gè)站長(zhǎng)論壇上就用這個(gè)精準(zhǔn)的分析判斷封神了。很小的時(shí)候就已經(jīng)是站長(zhǎng)圈的偶像了。但是蜘蛛的話題不僅僅是基于鏈接抓取，還有擴(kuò)展。

　　首先，網(wǎng)站所有者可以選擇是否允許蜘蛛抓取。有一個(gè)robots.txt文件來(lái)控制這一點(diǎn)。

　　一個(gè)典型的例子是https://www.taobao.com/robots.txt.

　　如你所見(jiàn)，淘寶仍有關(guān)鍵目錄不對(duì)百度蜘蛛開(kāi)放，而是對(duì)google開(kāi)放。

　　另一個(gè)經(jīng)典案例是http://www.baidu.com/robots.txt.

　　你看到了什么？也許你什么都沒(méi)看見(jiàn)。我提醒你一下，百度實(shí)際上是完全禁止360蜘蛛抓取的。

　　但是這個(gè)協(xié)議只是一個(gè)約定，實(shí)際上并沒(méi)有約束力。所以，你猜，360遵守百度的蜘蛛抓取禁令了嗎？

　　其次，最早的抓取是基于網(wǎng)站之間的鏈接，但實(shí)際上并不能肯定的說(shuō)可能還有其他的抓取入口，比如，

　　插件或?yàn)g覽器，免費(fèi)網(wǎng)站統(tǒng)計(jì)系統(tǒng)的內(nèi)嵌代碼。

　　會(huì)不會(huì)成為蜘蛛搶奪的入口？我只能說(shuō)有可能。

　　所以我跟很多創(chuàng)業(yè)者說(shuō)，如果中國(guó)做網(wǎng)站，發(fā)布百度統(tǒng)計(jì)，海外網(wǎng)站，發(fā)布google ?analytics，會(huì)增加你的網(wǎng)站被搜索引擎收錄嗎？我只能說(shuō)猜測(cè)，有可能。

　　第三，無(wú)法捕捉的信息。

　　有些網(wǎng)站是用javascript特效鏈接的，比如浮動(dòng)菜單等。這種連接可能不會(huì)被搜索引擎的蜘蛛程序識(shí)別。當(dāng)然，我只是說(shuō)有可能?，F(xiàn)在搜索引擎比以前更智能了。十幾年前很多特效環(huán)節(jié)別的都不知道，現(xiàn)在會(huì)更好。

　　需要登錄注冊(cè)的頁(yè)面，蜘蛛是無(wú)法訪問(wèn)的，也就是無(wú)法收錄。

　　有些網(wǎng)站會(huì)給出專門(mén)的頁(yè)面進(jìn)行搜索，也就是蜘蛛來(lái)了就能看到內(nèi)容(蜘蛛訪問(wèn)會(huì)有專門(mén)的客戶端標(biāo)記，服務(wù)器識(shí)別和處理也不復(fù)雜)。人來(lái)了要登錄才能看到，但這其實(shí)是違反收錄協(xié)議的(需要人和蜘蛛看到相同的內(nèi)容，這是大部分搜索引擎的收錄協(xié)議)，可能會(huì)受到搜索引擎的懲罰。

　　所以一個(gè)社區(qū)要想通過(guò)搜索引擎帶來(lái)免費(fèi)用戶，就必須讓訪客看到內(nèi)容，哪怕是一部分。

　　帶有許多復(fù)雜參數(shù)的內(nèi)容鏈接URL可能會(huì)被蜘蛛作為重復(fù)頁(yè)面拒絕。

　　很多動(dòng)態(tài)頁(yè)面都是由一個(gè)帶參數(shù)的腳本程序來(lái)體現(xiàn)的，但是蜘蛛發(fā)現(xiàn)同一個(gè)腳本有大量的參數(shù)，有時(shí)候會(huì)給這個(gè)頁(yè)面的價(jià)值評(píng)估帶來(lái)麻煩。蜘蛛可能會(huì)認(rèn)為這個(gè)頁(yè)面是一個(gè)重復(fù)的頁(yè)面，并拒絕包括它。還是那句話，隨著技術(shù)的發(fā)展，蜘蛛在識(shí)別動(dòng)態(tài)腳本的參數(shù)方面已經(jīng)有了很大的進(jìn)步，現(xiàn)在已經(jīng)基本不需要考慮這個(gè)問(wèn)題了。但這就誕生了一種技術(shù)，叫做偽靜態(tài)。通過(guò)配置web服務(wù)器，用戶訪問(wèn)的頁(yè)面的url格式看起來(lái)是靜態(tài)頁(yè)面，但實(shí)際上后面是常規(guī)匹配，實(shí)際執(zhí)行的是動(dòng)態(tài)腳本。

　　為了追求免費(fèi)搜索，許多社區(qū)論壇已經(jīng)偽靜態(tài)化。十幾年前，幾乎是草根站長(zhǎng)的必備技能之一。

　　爬蟲(chóng)技術(shù)暫時(shí)放在這里，重點(diǎn)在這里。有外鏈不代表搜索蜘蛛會(huì)爬。如果搜索蜘蛛抓取，不代表搜索引擎會(huì)收錄。搜索引擎收錄，不代表用戶可以搜索；

　　站點(diǎn)語(yǔ)法是檢查一個(gè)網(wǎng)站條目數(shù)量的最基本的搜索語(yǔ)法。我開(kāi)始以為是個(gè)常識(shí)，后來(lái)在新加坡做了一些創(chuàng)業(yè)培訓(xùn)才發(fā)現(xiàn)。大部分剛進(jìn)入這個(gè)行業(yè)的人，或者有意進(jìn)入這個(gè)行業(yè)的人，對(duì)這個(gè)行業(yè)一無(wú)所知。

　　舉個(gè)例子，百度搜索site:4399.com。

　　2.指標(biāo)系統(tǒng)

　　蜘蛛抓取的是網(wǎng)頁(yè)的內(nèi)容，所以如果想讓用戶通過(guò)關(guān)鍵詞快速搜索到這個(gè)網(wǎng)頁(yè)，就必須用關(guān)鍵詞索引網(wǎng)頁(yè)，這樣才能提高查詢效率。簡(jiǎn)單來(lái)說(shuō)，就是從網(wǎng)頁(yè)中提取出每個(gè)關(guān)鍵詞，針對(duì)這些關(guān)鍵詞的出現(xiàn)頻率、位置、特殊標(biāo)記等諸多因素賦予不同的權(quán)重，然后存儲(chǔ)在索引數(shù)據(jù)庫(kù)中。

　　那么問(wèn)題來(lái)了，關(guān)鍵詞是什么。

　　在英語(yǔ)中，如這是一本書(shū)，在漢語(yǔ)中，這是一本書(shū)。

　　英語(yǔ)自然是四個(gè)字，空格是自然參與者。語(yǔ)文呢？不能把一個(gè)句子作為關(guān)鍵詞(如果你把一個(gè)句子作為關(guān)鍵詞，那么當(dāng)你搜索一些信息的時(shí)候，你就無(wú)法獲得索引命中。比如你搜索一本書(shū)，卻找不到，這顯然不符合搜索引擎的訴求)。所以分詞。

　　剛開(kāi)始，最簡(jiǎn)單的想法就是每一個(gè)字都剪。這曾被稱為詞索引。每個(gè)單詞都有索引，并標(biāo)出其位置。如果一個(gè)用戶搜索一個(gè)關(guān)鍵詞，它也會(huì)把這個(gè)關(guān)鍵詞拆分成單詞來(lái)搜索并組合結(jié)果，但這時(shí)問(wèn)題就出現(xiàn)了。

　　比如搜索關(guān)鍵詞“海鮮”，會(huì)出現(xiàn)一個(gè)結(jié)果，上海鮮花，顯然不是正確的搜索結(jié)果。

　　比如搜索關(guān)鍵詞“和服”，就會(huì)出現(xiàn)結(jié)果、交換機(jī)、服務(wù)器。

　　這些都是谷歌在野時(shí)期無(wú)法幸免的問(wèn)題。

　　后來(lái)有了梗。不要笑。這些都是血淚梗。他們半夜給我打電話，說(shuō)網(wǎng)監(jiān)通過(guò)搜索發(fā)現(xiàn)你們小區(qū)有淫穢內(nèi)容，要求刪除。否則，他會(huì)關(guān)閉你的網(wǎng)站。他半夜醒來(lái)，仔細(xì)調(diào)查了一番。他百思不得其解，求信息線索。最后他發(fā)現(xiàn)有人發(fā)了個(gè)小廣告，“買(mǎi)二十四個(gè)開(kāi)關(guān)”。還有就是涉嫌政治敏感。最終找到了“提供三臺(tái)獨(dú)立服務(wù)器”。你看到敏感詞了嗎？你不應(yīng)該受委屈。這兩個(gè)故事不一定是真的，因?yàn)槎际窃诰W(wǎng)上看到的，但是我想說(shuō)，這樣的事情確實(shí)存在，也不全是空穴來(lái)風(fēng)。所以分詞是很多亞洲語(yǔ)言需要額外處理的問(wèn)題，而西方語(yǔ)言不存在。

　　但是分詞并不是說(shuō)說(shuō)那么簡(jiǎn)單，比如以下幾點(diǎn)：1。如何識(shí)別人的名字？2.如何識(shí)別網(wǎng)絡(luò)新詞？比如“不知情”。3.中英文混合的坑，比如QQ表情。

　　做一個(gè)分詞系統(tǒng)說(shuō)到底并不難，但要做一個(gè)能自動(dòng)學(xué)習(xí)、與時(shí)俱進(jìn)、高效靈活的分詞引擎，技術(shù)上還是很難的。當(dāng)然，我不是這方面的專家，所以不敢妄言。

　　現(xiàn)在機(jī)器學(xué)習(xí)技術(shù)發(fā)達(dá)，特別是谷歌在深度學(xué)習(xí)領(lǐng)域有領(lǐng)先優(yōu)勢(shì)。在過(guò)去，許多人工校準(zhǔn)和分類工作可以通過(guò)算法來(lái)完成。某種意義上，本地化工作可以通過(guò)機(jī)器學(xué)習(xí)來(lái)完成；在未來(lái)，也許深度學(xué)習(xí)技術(shù)可以自己學(xué)習(xí)和掌握本地化技能。但我想提出兩點(diǎn)。第一，從搜索引擎發(fā)展的歷史來(lái)看，在深度學(xué)習(xí)技術(shù)尚未成熟的情況下，本地化非常重要，也是決定競(jìng)爭(zhēng)成敗的重要因素。第二，即使深度學(xué)習(xí)現(xiàn)在已經(jīng)非常強(qiáng)大了，但是在人工參與、標(biāo)定、測(cè)試、反饋當(dāng)?shù)卣Z(yǔ)言的基礎(chǔ)上，一些本地化工作仍然對(duì)深度學(xué)習(xí)的效率和效果起到了不可替代的作用。

　　除了分詞，還有一些索引系統(tǒng)的關(guān)鍵點(diǎn)，比如實(shí)時(shí)索引，因?yàn)樗饕龜?shù)據(jù)庫(kù)的更新是一個(gè)大動(dòng)作。一般網(wǎng)站運(yùn)營(yíng)者都知道，自己的網(wǎng)站內(nèi)容更新后，需要等待索引數(shù)據(jù)庫(kù)的下一次更新才能看到效果。而且，對(duì)于不同權(quán)重的網(wǎng)站內(nèi)容，索引數(shù)據(jù)庫(kù)的更新頻率是不同的。但比如一些高優(yōu)先級(jí)的資訊網(wǎng)站和新聞搜索，索引數(shù)據(jù)庫(kù)幾乎可以實(shí)時(shí)索引，所以我們?cè)谛侣勊阉髦幸呀?jīng)可以搜索到幾分鐘前的信息了。

　　我曾經(jīng)抱怨過(guò)一件事。每次我在百度空間發(fā)表文章，google都率先索引。當(dāng)時(shí)他們的解釋是，猜測(cè)是很多人通過(guò)google ?Reader訂閱了我的博客，大概是google快速索引的入口。(不過(guò)，百度空間沒(méi)了，谷歌閱讀器也沒(méi)了。)

　　指標(biāo)體系的權(quán)重體系是所有SEOER最關(guān)心的問(wèn)題。他們往往以不同的方式組合策略，觀察搜索引擎的收錄、排名、路線，然后通過(guò)對(duì)比分析整理出相關(guān)策略。這個(gè)東西可以寫(xiě)很久，今天就不提了。

　　但是讓我告訴你一個(gè)事實(shí)。很多外面的公司，做SEO的，誤以為百度內(nèi)部的人熟悉這里的門(mén)道和規(guī)則。很多人花高價(jià)挖百度的搜索產(chǎn)品經(jīng)理和技術(shù)工程師做SEO。結(jié)果，呵呵呵呵。而外面那些草根創(chuàng)業(yè)者，有一些是擅長(zhǎng)這個(gè)的，真的比百度的更懂，搜索權(quán)重的影響力，更新的頻率等等。比如前面提到的那個(gè)身價(jià)幾十億的80后創(chuàng)業(yè)者。基于結(jié)果反推策略，比身處其中但不了解全局的參與者更能發(fā)現(xiàn)系統(tǒng)的關(guān)鍵點(diǎn)。是不是很有意思？

　　3.查詢和顯示

　　在用戶的瀏覽器或者手機(jī)客戶端輸入一個(gè)關(guān)鍵詞，或者幾個(gè)關(guān)鍵詞，甚至一個(gè)詞。這是在服務(wù)器端，響應(yīng)程序的后處理步驟如下

　　第一步，檢查最近是否有人搜索過(guò)同一個(gè)關(guān)鍵詞。如果有這樣的緩存，最快的處理方式就是提供給你，這樣查詢效率最高，后端負(fù)載壓力最低。

　　第二步：如果發(fā)現(xiàn)這個(gè)輸入的查詢最近沒(méi)有被搜索過(guò)，或者由于其他條件必須更新結(jié)果，那么這個(gè)用戶輸入的單詞就會(huì)被切分。沒(méi)錯(cuò)，如果不止一個(gè)關(guān)鍵詞或者一句話，答題程序會(huì)再次對(duì)搜索到的查詢進(jìn)行分段，拆分成幾個(gè)不同的關(guān)鍵詞。

　　第三步：將切分后的關(guān)鍵詞分發(fā)給查詢系統(tǒng)，查詢系統(tǒng)會(huì)查詢索引數(shù)據(jù)庫(kù)，這是一個(gè)龐大的分布式系統(tǒng)。首先分析這個(gè)關(guān)鍵字屬于哪個(gè)塊和服務(wù)器，索引是有序的數(shù)據(jù)組合。我們可以用近似二分法來(lái)思考。不管數(shù)據(jù)有多大，都可以用二分法查找一個(gè)結(jié)果，查詢頻率為log2(N)，保證了在海量數(shù)據(jù)下，查詢一個(gè)關(guān)鍵詞當(dāng)然實(shí)際情況會(huì)比二分法復(fù)雜很多，更容易理解。不是不告訴你，是我自己不知道。

　　第四步：將不同關(guān)鍵詞的查詢結(jié)果(只是部分按權(quán)重排序的前幾名結(jié)果，肯定不是全部結(jié)果)根據(jù)權(quán)重逆序再次匯總在一起，然后反饋共同命中的部分，做出最終的權(quán)重排序。

　　記住，搜索引擎永遠(yuǎn)不會(huì)返回所有結(jié)果。這個(gè)費(fèi)用誰(shuí)也承擔(dān)不起，百度不行，谷歌也不行，而且翻頁(yè)也有限制。

　　請(qǐng)記住，如果在您的多個(gè)關(guān)鍵字中有許多不同類別的冷門(mén)詞，搜索引擎可能會(huì)丟棄其中的一個(gè)，因?yàn)檎獢?shù)據(jù)很可能不包含常見(jiàn)的結(jié)果。搜索技術(shù)不應(yīng)該被神話，這樣的例子偶爾會(huì)出現(xiàn)。

　　這是三個(gè)主要部分。更確切的說(shuō)，其實(shí)還有第四部。

　　單擊用戶行為收集和反饋部分。

　　基于用戶的翻頁(yè)和點(diǎn)擊分布，可以判斷搜索結(jié)果的好壞，調(diào)整權(quán)重。不過(guò)這個(gè)早期的搜索引擎是沒(méi)有的，只是后來(lái)才有，所以暫時(shí)不列為必備的三塊。

　　此外還有一些搜索優(yōu)化的機(jī)器學(xué)習(xí)策略，易混淆詞和同音詞的識(shí)別等。也都是基于用戶行為反饋，這是另一個(gè)故事，這里不展開(kāi)。

　　關(guān)于第四部，我以前說(shuō)過(guò)一句話，點(diǎn)擊求權(quán)。我說(shuō)這個(gè)詞值一千塊，估計(jì)很多人沒(méi)看懂。只要我不懂，不然會(huì)被一些同行罵死的。以上只是指搜索引擎的工作原理，以及一些技術(shù)邏輯。當(dāng)然只是入門(mén)級(jí)的解讀。畢竟我也沒(méi)法再解釋了。

　　但是搜索引擎的本地化并不局限于搜索技術(shù)的本地化。

　　百度是強(qiáng)大的，不僅僅是在搜索技術(shù)上。當(dāng)然，有人會(huì)說(shuō)百度沒(méi)有搜索技術(shù)，這個(gè)說(shuō)法我就不爭(zhēng)論了。我不是想改變誰(shuí)的觀點(diǎn)，我只是列舉一些事實(shí)。

　　百度的實(shí)力也來(lái)源于兩大塊，第一塊是內(nèi)容護(hù)城河，第二塊是入口控制。

　　前者是百度貼吧、百度mp3、百度知道、百度百科、百度文庫(kù)。

　　后者是hao123和百度聯(lián)盟。

　　兩者都是本地化的。谷歌進(jìn)入中國(guó)，兩者都有動(dòng)作。

　　投資天涯，收購(gòu)265，大力發(fā)展谷歌聯(lián)盟，都是本地化。

　　另外重申一下，百度家族桶的出現(xiàn)以及百度家族桶與hao123的綁定是在360崛起之后。在百度收購(gòu)和360崛起之前，hao123已經(jīng)悄然推廣和捆綁。從歷史事實(shí)出發(fā)，請(qǐng)不要把本土化等同于流氓行為。

文章為作者獨(dú)立觀點(diǎn)，不代表DLZ123立場(chǎng)。如有侵權(quán),請(qǐng)聯(lián)系我們。( 版權(quán)為作者所有，如需轉(zhuǎn)載，請(qǐng)聯(lián)系作者 )

網(wǎng)站運(yùn)營(yíng)至今，離不開(kāi)小伙伴們的支持。為了給小伙伴們提供一個(gè)互相交流的平臺(tái)和資源的對(duì)接，特地開(kāi)通了獨(dú)立站交流群。群里有不少運(yùn)營(yíng)大神，不時(shí)會(huì)分享一些運(yùn)營(yíng)技巧，更有一些資源收藏愛(ài)好者不時(shí)分享一些優(yōu)質(zhì)的學(xué)習(xí)資料。

現(xiàn)在可以掃碼進(jìn)群，備注【加群】。 ( 群完全免費(fèi)，不廣告不賣(mài)課！)

點(diǎn)贊(1) 打賞