摘要:通信工程師終端與業務技術模式:要以最快的速度提供最精確的搜索結果,則需要一種全新的服務器設置。大多數的搜索引擎依靠少量大型服務器,這樣,在訪問高峰期速度就會減慢,而Google在全球部署數十萬臺服務器,并自行設計構建了超級計算機系統,能夠在多個數據中心之間傳輸數據,并能夠在半秒鐘之內同時對千萬個搜索請求做出應答。這一創新技術成功地縮短了響應時間,提高了可擴展性,并降低了成本。
2.2.3 技術模式
1.服務器技術
要以最快的速度提供最精確的搜索結果,則需要一種全新的服務器設置。大多數的搜索引擎依靠少量大型服務器,這樣,在訪問高峰期速度就會減慢,而Google在全球部署數十萬臺服務器,并自行設計構建了超級計算機系統,能夠在多個數據中心之間傳輸數據,并能夠在半秒鐘之內同時對千萬個搜索請求做出應答。這一創新技術成功地縮短了響應時間,提高了可擴展性,并降低了成本。
2.搜索技術
1)PageRank技術
PageRank(網頁級別)技術是Google的兩位創始人發明的技術,它是一種由搜索引擎根據網頁之間相互的超鏈接關系計算網頁級別的技術,Google用它對網頁的相關性和重要性做出評價。Page Rank技術并不是簡單地計算直接鏈接的數量,而是把從A頁面到B頁面的鏈接解釋為A頁面給B頁面的投票,根據A頁面和B頁面的級別來決定B頁面新的級別。一個頁面的PageRank是由鏈接它的頁面數量和重要性經過遞歸算法計算得到的。Google技術使用網上反饋的綜合信息來確定某個網頁的重要性,搜索結果沒有人工預或操縱,這使Google成為一個廣受用戶信賴、不受付費排名影響的信息來源。
2)超文本匹配分析技術
Google的超文本匹配分析技術不但掃描基于網頁的文本內容,而且分析網頁的全部內容、字體、分區及每個文字精確位置等因素,同時Google還分析相鄰網頁的內容,以此來確保返回與用戶查詢最相關的結果。
3.廣告相關性投放實現技術
Google爬蟲對廣告逋示頁進行爬取,首先對網頁進行降噪處理,通過信息塊之間的關聯找到正文所在的信息塊,剔除導航、廣告、版權信息等無用信息塊。得到正文塊后,對正文進行分詞處理,得到關鍵詞序列。最后利用已經通過機器學習技術獲得的每個分類在特征空間上的聚類中心進行計箅,得出該網頁屬丁某個分類的概率。對于高出一定分類閾值的網頁投放相關分類下的廣告。
4.作弊點擊分析技術
Google并+是單純使用編程技巧如檢査IP是否重復來判斷作弊點擊,而是把所有的點擊及頁面訪問歷史信息都記錄下來,保存到一個設計良好的點擊流數據倉庫中。對數據倉庫中的數據進行數據挖掘得到由多個因素參與的計算模型,最后給出一次點擊成為作弊點擊的概率,通過當前閾值來過濾作弊點擊。這些參與因素包括整體點顯比、單IP點敁比、時間段因素、時間差因素(網頁的顯示和點擊廣告間的時間差,以及廣告打幵和關閉的時間差)等。
5.地圖搜索技術
Google地閣是一項網絡地圖服務,通過使用Google地圖,用戶了以查詢詳細地址、尋找周邊信息、商戶信息,并規劃點到點路線。Google地圖的工作原理是:Google每隔1-2年通過民用衛塱拍攝地球的圖片傳到服務器上,通過軟件把圖片的坐標轉換成地圖的經緯度,經過處理把相關數據存放在服務器的數據庫里,當用戶搜索地圖時,Google用程序來讀取服務器數據庫的相關數據,經過篩選把符合用戶需要的結果反饋到客戶端。
Google地圖對坐標的控制比較寬松,不對坐標進行加密,而且Google地圖搜索請求不僅僅支持HTML輸出,而且還支持JSON和KML等輸出,給程序整合帶來便利。
6.視頻搜索技術
Google的視頻搜索漫游器會定期抓取中國的熱門視頻網站,將這些網頁納入索引并掃描其中的視頻,Google使用先進的抓取技術分析視頻旁的文字、視頻標題和其他數十種因素,以確定視頻內容。Google還使用復雜的算法刪除重復視頻,確保在搜索結果中先展示質量較高的視頻。
返回目錄:
編輯推薦:
通信工程師備考資料免費領取
去領取
專注在線職業教育25年