• 企業(yè)博客網(wǎng)bokee.net www.528008.cn http://hangye010.blog.bokee.net/  互聯(lián)網(wǎng)搜索相關(guān)知識-全文搜索引擎 打印此頁(yè)

    互聯(lián)網(wǎng)搜索相關(guān)知識-全文搜索引擎

    http://hangye010.blog.bokee.net    2012-8-23

    全文搜索引擎

    概述

         全文搜索引擎是目前廣泛應用的主流搜索引擎。它的工作原理是計算機索引程序通過(guò)掃描文章中的每一個(gè)詞,對每一個(gè)詞建立一個(gè)索引,指明該詞在文章中出現的次 數和位置,當用戶(hù)查詢(xún)時(shí),檢索程序就根據事先建立的索引進(jìn)行查找,并將查找的結果反饋給用戶(hù)的檢索方式。這個(gè)過(guò)程類(lèi)似于通過(guò)字典中的檢索字表查字的過(guò)程。

    分類(lèi)

           全文檢索的方法主要分為按字檢索和按詞檢索兩種。


    按字檢索是指對于文章中的每一個(gè)字都建立索引,檢索時(shí)將詞分解為字的組合。對于各種不同的語(yǔ)言而言,字有不同的含義,比如英文中字與詞實(shí)際上是合一的,而中文中字與詞有很大分別。


    按詞檢索指對文章中的詞,即語(yǔ)義單位建立索引,檢索時(shí)按詞檢索,并且可以處理同義項等。英文等西方文字由于按照空白切分詞,因此實(shí)現上與按字處理類(lèi) 似,添加同義處理也很容易。中文等東方文字則需要切分字詞,以達到按詞索引的目的,關(guān)于這方面的問(wèn)題,是當前全文檢索技術(shù)尤其是中文全文檢索技術(shù)中的難 點(diǎn)。

    功能和結果

      功能


    全文檢索系統是按照全文檢索理論建立起來(lái)的用于提供全文檢索服務(wù)的軟件系統。一般來(lái)說(shuō),全文檢索需要具備建立索引和提供查詢(xún)的基本功能,此外現代的全 文檢索系統還需要具有方便的用戶(hù)接口、面向WWW的開(kāi)發(fā)接口、二次應用開(kāi)發(fā)接口等等。功能上,全文檢索系統核心具有建立索引、處理查詢(xún)返回結果集、增加索 引、優(yōu)化索引結構等等功能,外圍則由各種不同應用具有的功能組成。


    結構


    結構上,全文檢索系統核心具有索引引擎、查詢(xún)引擎、文本分析引擎、對外接口等等,加上各種外圍應用系統等等共同構成了全文檢索系統。


    *常用的全文搜索引擎有百度、谷歌(Google)等。與之相對應的是目錄索引類(lèi)搜索引擎。

    采用的技術(shù)

            技術(shù)特點(diǎn)


    搜索引擎面臨大量的用戶(hù)檢索需求(幾十~幾千點(diǎn)擊/秒),要求搜索引擎在檢索程序的設計上要高效,盡可能的將大運算量的工作在索引建立時(shí)完成,使檢索時(shí)的運算壓力能夠承受,一般的數據庫查詢(xún)技術(shù)無(wú)法實(shí)現全文搜索的時(shí)間要求。


            倒排技術(shù)
     

      目前全文搜索引擎通常使用倒排索引技術(shù)。倒排索引(英語(yǔ):Inverted index),也常被稱(chēng)為反向索引、置入檔案或反向檔案,是一種索引方法,被用來(lái)存儲在全文搜索下某個(gè)單詞在一個(gè)文檔或者一組文檔中的存儲位置的映射。它 是文檔檢索系統中*常用的數據結構。   有兩種不同的反向索引形式:   一條記錄的水平反向索引(或者反向檔案索引)包含每個(gè)引用單詞的文檔的列表。 一個(gè)單詞的水平反向索引(或者完全反向索引)又包含每個(gè)單詞在一個(gè)文檔中的位置。[1] 后者的形式提供了更多的兼容性(比如短語(yǔ)搜索),但是需要更多的時(shí)間和空間來(lái)創(chuàng )建。

    全文檢索技術(shù)

      隨著(zhù)計算機產(chǎn)業(yè)的發(fā)展,以計算機存儲設備為載體的電子信息愈來(lái)愈多,這些信息大致可分為兩類(lèi):結構化數據和非結構化數據,結構化數據指的是諸如企業(yè)財 務(wù)帳目和生產(chǎn)數據、學(xué)生的分數數據等等,非結構化數據的則是一些文本數據、圖象聲音等多媒體數據等等。據統計,非結構化數據占有整個(gè)信息量的80%以上。


    對于結構化數據,用RDBMS(關(guān)系數據庫管理系統)技術(shù)來(lái)管理是目前*好的一種方式。但是由于RDBMS自身底層結構的緣故使得它管理大量非結構化 數據顯得有些先天不足,特別是查詢(xún)這些海量非結構化數據的速度較慢。而通過(guò)全文檢索技術(shù)就能高效地管理這些非結構化數據。


    經(jīng)過(guò)幾年的發(fā)展,全文檢索從*初的字符串匹配程序已經(jīng)演進(jìn)到能對超大文本、語(yǔ)音、圖像、活動(dòng)影像等非結構化數據進(jìn)行綜合管理的大型軟件。由于內涵和外延的深刻變化,全文檢索系統已成為新一代管理信息系統的代名詞,衡量全文檢索系統的基本指標也逐漸形成規范。


    首先,我們關(guān)注的是查全率,即系統在進(jìn)行某一檢索時(shí),檢索出的相關(guān)資料量與系統資料庫中相關(guān)資料總量的比率。查準率則是保證我們找到*有用資料的一個(gè) 關(guān)鍵,是系統在進(jìn)行某一檢索時(shí),檢索出的有用資料數量與檢索出資料總量的比率。檢索速度或者說(shuō)響應時(shí)間是提高工作效率的保障,指的是從提交檢索課題到查出 資料結果所需的時(shí)間。*基本的檢索速度是應該達“千萬(wàn)漢字,秒級響應”。還有諸如收錄范圍(所查找的范圍)、用戶(hù)負擔(用戶(hù)在檢索過(guò)程中付出精力的總 和)、輸出形式(輸出信息表現形式)等指標也是衡量全文檢索系統優(yōu)劣的要素。搜索引擎應該是全文檢索技術(shù)*主要的一個(gè)應用。目前,搜索引擎的使用已成為排 在收發(fā)電子郵件之后的第二大互聯(lián)網(wǎng)應用技術(shù)。搜索引擎起源于傳統的信息全文檢索理論,即計算機程序通過(guò)掃描每一篇文章中的每一個(gè)詞,建立以詞為單位的到排 文件,檢索程序根據檢索詞在每一篇文章中出現的頻率和每一個(gè)檢索詞在一篇文章中出現的概率,對包含這些檢索詞的文章進(jìn)行排序,*后輸出排序的結果。全文檢 索技術(shù)是搜索引擎的核心支撐技術(shù)。


    一個(gè)好的檢索引擎是一個(gè)理想站點(diǎn)的關(guān)鍵。很多人在訪(fǎng)問(wèn)一個(gè)站點(diǎn)時(shí)喜歡使用站點(diǎn)檢索,站點(diǎn)檢索應是分類(lèi)目錄導航和全文檢索的完美結合,具體包括以下幾個(gè)方面:


    *類(lèi)目錄導航的關(guān)鍵是檢索范圍,檢索范圍的限制能使得檢索結果不會(huì )太多、太濫;


    全文檢索對于站點(diǎn)檢索是必不可少的,在通常情況下能夠幫助人們很快地找到所要的網(wǎng)頁(yè);


    有時(shí)利用分類(lèi)目錄導航和全文檢索還很難定位到所要的信息,這時(shí)就要組合檢索輔助;


    必須有相關(guān)排序功能,因為當檢索結果太多時(shí),用戶(hù)不可能一一瀏覽,大多數用戶(hù)只瀏覽前面幾條,沒(méi)有相關(guān)排序,可能準確的檢索結果排在后面,用戶(hù)不能瀏覽到,而排在前面的檢索結果卻相關(guān)性很少,造成用戶(hù)的錯覺(jué)。


    此外,我們還要考慮HTML/XML的特殊性、支持大量并發(fā)用戶(hù)突發(fā)訪(fǎng)問(wèn)、Web站點(diǎn)的動(dòng)態(tài)特性、要求索引維護效率很高等方面。

    競價(jià)排名

    概述

         競價(jià)排名的基本特點(diǎn)是按點(diǎn)擊付費,推廣信息出現在搜索結果中(一般是靠前的位置),如果沒(méi)有被用戶(hù)點(diǎn)擊,則不收取推廣費。

    主要特點(diǎn)和作用

     ?。?)按效果付費,費用相對較低;

     ?。?)出現在搜索結果頁(yè)面,與用戶(hù)檢索內容高度相關(guān),增加了推廣的定位程度;

     ?。?)競價(jià)結果出現在搜索結果靠前的位置,容易引起用戶(hù)的關(guān)注和點(diǎn)擊,因而效果比較顯著(zhù);

     ?。?)搜索引擎自然搜索結果排名的推廣效果是有限的,尤其對于自然排名效果不好的網(wǎng)站,采用競價(jià)排名可以很好彌補這種劣勢;

     ?。?)企業(yè)可以自己控制點(diǎn)擊價(jià)格和推廣費用;

     ?。?)企業(yè)可以對用戶(hù)點(diǎn)擊情況進(jìn)行統計分析。

      競價(jià)排名,是一種按效果付費的網(wǎng)絡(luò )推廣方式。用少量的投入就可以給企業(yè)帶來(lái)大量潛在客戶(hù),有效提升企業(yè)銷(xiāo)售額和品牌知名度。

      競價(jià)排名按照給企業(yè)帶來(lái)的潛在客戶(hù)訪(fǎng)問(wèn)數量計費,企業(yè)可以靈活控制網(wǎng)絡(luò )推廣投入,獲得*大回報。優(yōu)點(diǎn):
     

      1、見(jiàn)效快:充值后設置關(guān)鍵詞價(jià)格后即刻就可以進(jìn)入。

      2、關(guān)鍵詞數量無(wú)限制:可以在后臺設置無(wú)數的關(guān)鍵詞進(jìn)行推廣,數量自己控制,沒(méi)有任何限制。

      3、關(guān)鍵詞不分難易程度:不論多么熱門(mén)的關(guān)鍵詞,只要你想做,你都可以進(jìn)入前三甚至*。

    目錄索引

    簡(jiǎn)介

     

      目錄索引,顧名思義就是將網(wǎng)站分門(mén)別類(lèi)地存放在相應的目錄中,因此用戶(hù)在查詢(xún)信息時(shí),可選擇關(guān)鍵詞搜索,也可按分類(lèi)目錄逐層查找。如以關(guān)鍵詞搜索,返 回的結果跟搜索引擎一樣,也是根據信息關(guān)聯(lián)程度排列網(wǎng)站,只不過(guò)其中人為因素要多一些。如果按分層目錄查找,某一目錄中網(wǎng)站的排名則是由標題字母的先后順 序決定(也有例外)。

    特點(diǎn)

     

      1、目錄索引則完全依賴(lài)手工操作。用戶(hù)提交網(wǎng)站后,目錄編輯人員會(huì )親自瀏覽你的網(wǎng)站,然后根據一套自定的評判標準甚至編輯人員的主觀(guān)印象,決定是否接納你的網(wǎng)站。

      2、目錄索引對網(wǎng)站的要求高,有時(shí)即使登錄多次也不一定成功。尤其Yahoo這樣的超級索引,登錄更是困難。

      3、登錄目錄索引時(shí)則必須將網(wǎng)站放在一個(gè)*合適的目錄(Directory)。

      4、目錄索引要求手工并填寫(xiě)網(wǎng)站信息,還有各種各樣的限制。更有甚者,如果工作人員認為你提交網(wǎng)站的目錄、網(wǎng)站信息不合適,他可以隨時(shí)對其進(jìn)行調整,當然事先是不會(huì )和你商量的。

    青青草原综合久久大伊人_日日摸夜夜欧美一区二区_99热这里只有精品9988_亚洲综合色区另类第一会所