全國服務(wù)熱線:400-080-4418
字號:大中小(上海網(wǎng)絡(luò)優(yōu)化)
互聯(lián)網(wǎng)發(fā)展的今天,一方面離不開其開放、共享的特性帶給人們的全新體驗,另一方面也離不開數(shù)以億計的為其提供各類豐富內(nèi)容的網(wǎng)絡(luò)節(jié)點。互聯(lián)網(wǎng)被普及前,人們查閱資料第一想到的便是擁有大量書籍資料的圖書館,到了今天你怎么想?或許今天的很多人都會選擇一種更方便、快捷、全面、準確的方式——互聯(lián)網(wǎng)。你可以坐在家里輕點幾下鼠標就查到想要的各類信息,這在互聯(lián)網(wǎng)沒有被普及之前,還都僅是一個夢而已,但如今這一切已成為了現(xiàn)實。(上海企業(yè)網(wǎng)站建設(shè))
而幫助你通過整個互聯(lián)網(wǎng)快速查找到目標信息的就是越來越被重視的搜索引擎。有關(guān)搜索引擎的技術(shù)資料網(wǎng)絡(luò)上已經(jīng)很多,關(guān)于搜索引擎經(jīng)濟的多方面報道各大媒體也都已經(jīng)鋪天蓋地。下面談一些我對搜索引擎的理解:
搜索引擎技術(shù)和分類(企業(yè)網(wǎng)站建設(shè))
搜索引擎的技術(shù)基礎(chǔ)是全文檢索技術(shù),從20世紀60年代,國外對全文檢索技術(shù)就開始有研究。全文檢索通常指文本全文檢索,包括信息的存儲、組織、表現(xiàn)、查詢、存取等各個方面,其核心為文本信息的索引和檢索,一般用于企事業(yè)單位。隨著互聯(lián)網(wǎng)信息的發(fā)展,搜索引擎在全文檢索技術(shù)上逐漸發(fā)展起來,并得到廣泛的應(yīng)用,但搜索引擎還是不同于全文檢索。搜索引擎和常規(guī)意義上的全文檢索主要區(qū)別有以下幾點:
1. 數(shù)據(jù)量(上海網(wǎng)站推廣)
傳統(tǒng)全文檢索系統(tǒng)面向的是企業(yè)本身的數(shù)據(jù)或者和企業(yè)相關(guān)的數(shù)據(jù),一般索引庫規(guī)模多在GB級,數(shù)據(jù)量大的也只有幾百萬條;但互聯(lián)網(wǎng)網(wǎng)頁搜索需要處理幾十億的網(wǎng)頁,搜索引擎的策略都是采用服務(wù)器群集和分布式計算技術(shù)。
2. 內(nèi)容相關(guān)性
信息太多,查準和排序就特別重要,Google等搜索引擎采用網(wǎng)頁鏈接分析技術(shù),根據(jù)互聯(lián)網(wǎng)上網(wǎng)頁被鏈接次數(shù)作為重要性評判的依據(jù);但全文檢索的數(shù)據(jù)源中相互鏈接的程度并不高,不能作為判別重要性的依據(jù),只能基于內(nèi)容的相關(guān)性排序。
3. 安全性(上海網(wǎng)站建設(shè))
互聯(lián)網(wǎng)搜索引擎的數(shù)據(jù)來源都是互聯(lián)網(wǎng)上公開的信息,而且除了文本正文以外,其它信息都不太重要;但企業(yè)全文檢索的數(shù)據(jù)源都是企業(yè)內(nèi)部的信息,有等級、權(quán)限等限制,對查詢方式也有更嚴格的要求,因此其數(shù)據(jù)一般會安全和集中地存放在數(shù)據(jù)倉庫中以保證數(shù)據(jù)安全和管理的要求。
4. 個性化和智能化
搜索引擎面向的是互聯(lián)網(wǎng)訪問者,由于其數(shù)據(jù)量和客戶數(shù)量的限制,自然語言處理技術(shù)、知識檢索、知識挖掘等計算密集的智能計算技術(shù)很難應(yīng)用,這也是目前搜索引擎技術(shù)努力的方向;而全文檢索數(shù)據(jù)量小,檢索需求明確,客戶量少,在智能化和個性可走得更遠。(上海做網(wǎng)站)
Copyright 2008 © 上海網(wǎng)至普信息科技有限公司 All rights reserved. 滬ICP備11006570號-13
滬公網(wǎng)安備 31011402007386號