天才一秒记住【小说吧】地址:www.xiaoshuob.cc
但說的簡單一點,其實核心就是一個東西,算法。
因為每一個技術都離不開算法。
「我不太清楚在座各位在搜尋引擎方面的建樹和理解,我只能先按照我的節奏說下去,如果誰有問題可以隨時打斷我。」孟謙走到黑板前直入正題。
「在我展示我的核心技術之前,我們先來看看當下的三大主流算法,白度的超鏈分析,谷歌的parank算法以及ib的hits算法。
幾乎所有人都覺得白度的超鏈分析是三個算法中最落後的,但有些事情我們還是要多角度的看一看,白度的超鏈分析在某種程度上可以算得上是奠定了搜尋引擎的發展基礎。
有一些聲音說谷歌其實是剽竊了白度的超鏈算法,畢竟李彥宏這個專利確實在谷歌之前,我們現在不去猜測真假,但這種說法體現了一個很重要的信號,其實不管是哪一家的算法,算法基礎其實都是一樣的。
抓取網頁信息,然後用某種機制對這些網頁進行排序,當用戶輸入關鍵詞進行搜索時,根據關鍵詞匹配出按照機制進行排列的網頁。
那麼白度輸在哪呢?關鍵就在於白度現在過於簡單的基於在某次搜索的所有結果中被其他網頁用超連結指向的越多的網頁就價值越高這種基礎排序方式。
相比之下,谷歌的parank就多了兩件很重要的事情,第一件事情是,把a頁面到b頁面的連結解釋為a給b的投票行為,谷歌在這裡會同時考評a和b的等級從而形成新的等級。
也就是每一個頁面都有pr值,同時你的pr值會成為其他頁面pr值的參考。
然後不斷的重複計算每個頁面的pr。假設給每個頁面一個隨機pr值,那麼經過不斷的重複計算,這些頁面的pr值會趨向於穩定,也就是收斂的狀態。
至於hits,其理論基礎依然沒變,它最大的特點或者說改變就在它意識到parank算法平均的分布權值不符合連結的實際情況。
所以hits算法中引入了另外一種網頁,稱為hub網頁,hub網頁是提供指向權威網頁連結集合的web網頁。
所以使用hits的搜索結果會比其他兩者都更權威,但這個算法會大大增加計算負擔,對吧?」
孟謙看了一眼ib出來的哥們,對方愣了一下有點好像不確定的點了點頭。
所以現在簡單總結一下,搜尋引擎的算法基礎就是超鏈分析,算法的優劣勢就在於如何讓搜索結果更具有參考價值,讓用戶獲得更有效的信息。
當然如果能直接理解用戶的需求然後幫他搜索他最想要的內容,這是最理想的搜尋引擎狀態,但誰都知道這是不可能的。
因此搜尋引擎的好壞決定的就是同樣的關鍵詞下,你是否能讓相對更多的人獲得他們想要的內容。
10個用戶用谷歌,5個人找到了自己想要的東西,如果用我們的搜尋引擎,6個人找到了自己想要的東西,在這裡領域目前的技術環境下,我們就是更優秀的。
那麼在這個理解基礎上,我接下來要給大家介紹的,就是我的搜尋引擎算法,動態規則超鏈分析算法。
動態規則超鏈分析算法有以下幾個變化。
第一,剛才我們提到了,好的搜尋引擎是要看在同一關鍵詞下誰的反饋結果更能滿足用戶需求,那麼當用戶在搜索某個東西的時候,從大概率來說,他想要看到的結果應該是與這個東西具有更垂直型相關的內容。
舉個例子,客戶在搜索汽車的時候,不管他是想買車,還是想了解汽車知識,汽車類的專業網頁對他的幫助應該都是更大的。
所以在我的算法中,對於指向某一個網站的連結,我首先會做垂直率評分,比如有現在有10個網站連
本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!