在搜索引擎原理中,搜索引擎工作流程從大的方面有三點(diǎn):數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、查詢服務(wù),這里和大家分享一下數(shù)據(jù)預(yù)處理,提前說(shuō)明的是,其中涉及一些專業(yè)的詞匯,看不懂的可以去百度一下。
在我們所述的“數(shù)據(jù)預(yù)處理”就是主要包含四個(gè)方面:關(guān)鍵詞提取,“鏡像網(wǎng)頁(yè)”以及“轉(zhuǎn)載網(wǎng)頁(yè)”的消除,鏈接分析和網(wǎng)頁(yè)重要程度的計(jì)算。
關(guān)鍵詞提?。?br /> 1)在每一章網(wǎng)頁(yè),包含了大量的和主題內(nèi)容無(wú)關(guān)的內(nèi)容,像版權(quán)說(shuō)明等等,關(guān)鍵詞提取的任務(wù),就是要提取出網(wǎng)頁(yè)源文件的內(nèi)容部分所含的關(guān)鍵詞。提取的方法:一般類似與切詞,將內(nèi)容切成多個(gè)詞組成的數(shù)組,再取出“在”“的”等無(wú)意義的詞組,確定最終的關(guān)鍵詞。(博主聯(lián)想:關(guān)鍵詞密度,關(guān)鍵詞加粗,定向錨文本就是更具這一原因出現(xiàn),方便搜索引擎更加簡(jiǎn)單的判斷關(guān)鍵詞)
在后面的章節(jié)也會(huì)提到的DocView模型中會(huì)有更加詳細(xì)的講解,在關(guān)鍵詞提取之前還有網(wǎng)頁(yè)凈化等多個(gè)步驟,出于書籍的編輯順序考慮,在這里不詳解,感興趣的可以點(diǎn)擊鏈接跳轉(zhuǎn)查看:DocView模型,網(wǎng)頁(yè)凈化;
鏈接分析:
1)鏈接分析中有提到兩個(gè)概念,詞頻(TF):該關(guān)鍵詞在關(guān)鍵詞提取之后的關(guān)鍵詞集合中的出現(xiàn)頻率;
2)文件頻率(DF):該關(guān)鍵詞在所有文件中的出現(xiàn)頻率,在所有文件中,該關(guān)鍵詞在多少文件中出現(xiàn);
3)搜索引擎可以通過(guò)HTML文本標(biāo)簽,來(lái)確定關(guān)鍵詞的重要性(博主聯(lián)想:<h1>標(biāo)簽的使用就是通過(guò)這個(gè)得來(lái));指向其他文件的鏈接,來(lái)判斷(博主聯(lián)想:定向錨文本的使用)
網(wǎng)頁(yè)重要程度的計(jì)算:
1)搜索引擎需要將用戶索引的結(jié)果,以列表的形式,展示給客戶,并且在展示中滿足用戶的搜索需求,因此“網(wǎng)頁(yè)重要程度”的概念出現(xiàn)了。
2)判定重要性的方法:人們通過(guò)參考文獻(xiàn)重要性的評(píng)估方式,其核心就是–“被引用的最多的就是最重要的”。這種方式,恰好在HTML中超文本鏈接完美體現(xiàn),谷歌的PR值(引用該頁(yè)面的頁(yè)面概述和引用該頁(yè)面的頁(yè)面重要程度)就是完美展現(xiàn)(博主聯(lián)想:發(fā)外鏈就是該算法的完美體現(xiàn))。(PageRank算法)
3)和第二點(diǎn)出現(xiàn)的不同的地方在于,某些頁(yè)面是被大量的指向其他頁(yè)面,某些頁(yè)面被其他頁(yè)面大量引用,形成對(duì)偶的關(guān)系,于是HITS算法出現(xiàn)。(HITS算法)
部分名詞介紹:
“倒排文字:利用文檔(已經(jīng)采集到的網(wǎng)頁(yè))中所包含的關(guān)鍵詞作為索引,文檔則作為索引的著陸頁(yè)(目標(biāo)文檔),常見(jiàn)的,就像紙質(zhì)書籍中,索引就是文章關(guān)鍵詞,書籍的具體內(nèi)容或者說(shuō)頁(yè)面就是索引目標(biāo)頁(yè)。
鏡像網(wǎng)頁(yè):網(wǎng)頁(yè)內(nèi)容一模一樣的,未做任何的修改
轉(zhuǎn)載網(wǎng)頁(yè):主要內(nèi)容基本相同,但是多了少量的編輯信息
HITS算法:簡(jiǎn)單介紹,在HITS算法中,存在兩種頁(yè)面Authority(權(quán)威)頁(yè)面和Hub(目錄)頁(yè)面,對(duì)于Authority頁(yè)面A,指向A頁(yè)面的Hub頁(yè)面H頁(yè)面越多,那么A頁(yè)面的質(zhì)量越高,同樣的Hub頁(yè)面H指向的Authority頁(yè)面A的數(shù)量越多,質(zhì)量越高,則H頁(yè)面的質(zhì)量也就越高。
優(yōu)覺(jué)科技在最后總結(jié)一下,在搜索引擎原理這一本書,在介紹數(shù)據(jù)預(yù)處理這一塊,包含的四個(gè)方面,在陳晨來(lái)看,鏈接分析就是用來(lái)判斷網(wǎng)頁(yè)重要程度的,所以可以劃分為一類,合起來(lái)就是三個(gè)方面,一句話來(lái)說(shuō):重復(fù)或轉(zhuǎn)載頁(yè)面首先消除,然后提取關(guān)鍵詞,加以DF,TF,鏈接,和算法來(lái)判斷出網(wǎng)頁(yè)重要程度。
- 地址:浙江省杭州市西湖區(qū)鎮(zhèn)南路1號(hào)鳳凰創(chuàng)意大廈5層
- 電話:400-8699-864
- 手機(jī):13675891327
- 郵件:404011662@qq.com
- ICP: 浙ICP備15004778號(hào)-1 公安備案號(hào):33010302001608