前幾天朋友問我同義詞怎么處理,要不要做成不同頁面來獲取排名,給了這2個(gè)詞:?personalized mug?和?custom mug?。

      我截圖做了標(biāo)注給他,回復(fù):Google 現(xiàn)在已經(jīng)能識別這些同義詞。所以當(dāng)搜索?personalized mug?和?custom mug?時(shí),搜索結(jié)果的重復(fù)度很高(準(zhǔn)確來講,網(wǎng)頁召回階段是相同,排名階段有少量差異)。而且上圖看見,搜索?personalized?時(shí),?custom?也會(huì)飄紅,所以建議是做一個(gè)頁面就好了(即 2 個(gè)同義詞用一個(gè)頁面來獲取排名)。

      Query 處理簡介

      以上的情況主要是在搜索引擎的 Query 處理階段。這是用戶輸入關(guān)鍵詞后的第一個(gè)階段。Google 拿到用戶的 Query 詞(即搜索詞)之后,并不是直接去索引庫中查找,而是對 Query 詞做了一些處理,比如規(guī)范化、分詞、擴(kuò)展和分析等,可以讓搜索引擎去除干擾,更理解用戶的查詢,盡可能地準(zhǔn)確地找到用戶所需的信息。

      主要有以下幾個(gè)部分:

      • 標(biāo)點(diǎn)符號處理。去除無關(guān)字符,比如特殊符號,標(biāo)點(diǎn)符號

      • 大小寫處理。將大寫都改為小寫

      • 去掉停用詞。比如 the、of、a,這些太常見,且不包含信息的單詞

      • 單復(fù)數(shù)處理。將復(fù)數(shù)統(tǒng)一為單數(shù),如 phones 改為 phone

      • 時(shí)態(tài)處理。都時(shí)態(tài)統(tǒng)一為基本時(shí)態(tài),如 runs 改為 run

      • 錯(cuò)別字處理。糾正拼寫錯(cuò)誤,如 gogle 改為 google

      另外為了找到更全面的信息,還會(huì)做一些擴(kuò)展,比如:

      • 同義詞擴(kuò)展。將查詢中的某些詞替換為它們的同義詞,以捕獲用戶可能使用的不同表述

      • 查詢擴(kuò)展。基于詞匯的共現(xiàn),用戶的搜索歷史,或者其他信息源來擴(kuò)展或修改查詢

      以上環(huán)節(jié)完成之后,就會(huì)形成一個(gè)清晰又豐富的詞組,可以去索引庫中找到更多更準(zhǔn)確的網(wǎng)頁了。

      在 AI 時(shí)期,Query 處理對搜索引擎會(huì)更重要,因?yàn)?Query 更長,更需要了解用戶的意圖。

      最后,因?yàn)椴⒉皇菍I(yè)的搜索引擎開發(fā)人員,所以有錯(cuò)誤之處還請多指教。



      點(diǎn)贊(13) 打賞

      評論列表 共有 0 條評論

      暫無評論

      服務(wù)號

      訂閱號

      備注【拉群】

      商務(wù)洽談

      微信聯(lián)系站長

      發(fā)表
      評論
      立即
      投稿
      返回
      頂部