• bokee.net

    博客

    正文 更多文章

    互聯(lián)網(wǎng)相關(guān)知識-通用搜索引擎

    通用搜索引擎

     通用搜索引擎就如同互聯(lián)網(wǎng)*次出現的門(mén)戶(hù)網(wǎng)站一樣,大量的信息整合導航,極快的查詢(xún),將所有網(wǎng)站上的信息整理在一個(gè)平臺上供網(wǎng)民使用,于是信息的價(jià)值 *次普遍的被眾多商家認可,迅速成為互聯(lián)網(wǎng)中*有價(jià)值的領(lǐng)域?;ヂ?lián)網(wǎng)的低谷由此演變?yōu)榈诙胃叻?。大家熟知的搜索引擎Google、百度、雅虎等是通用 搜索引擎現如今的*代,他們?yōu)榛ヂ?lián)網(wǎng)的發(fā)展做出了重要的貢獻。

      然而,搜索引擎行業(yè)也不是一家公司就可以獨撐天下的,從百度的上市、yahoo中國的并購一系列動(dòng)作表明,如今的搜索引擎大戰如同門(mén)戶(hù)網(wǎng)站初期的競爭一樣激烈。相信,通用搜索引擎在經(jīng)歷過(guò)一段時(shí)間的角逐后,也將會(huì )繼續維持幾大服務(wù)商各自分控一部分市場(chǎng)的局面。

      用戶(hù)使用google,baidu等通用搜索引擎的方式是通過(guò)關(guān)鍵字的方式實(shí)現的,是語(yǔ)義上的搜索,返回的結果傾向于知識成果,比如文章,論文,新聞等;

      微軟亞洲研究院負責搜索的一名技術(shù)專(zhuān)家說(shuō):75%的內容通用搜索引擎搜索不出來(lái)。

      通用搜索引擎的信息量大、查詢(xún)不準確、深度不夠

      通用搜索引擎的海量信息無(wú)序化

    信息資源檢索

    檢索要求

    信息資源的主題內容、研究要點(diǎn)、學(xué)科范圍、語(yǔ)種范圍、時(shí)間范圍、文獻類(lèi)型等

     

    檢索途徑

    1、選擇信息檢索系統的方法:

    (1)在信息檢索系統齊全的情況下,首先使用信息檢索工具指南來(lái)指導選擇;

    (2)在沒(méi)有信息檢索工具指南的情況下,可以采用瀏覽圖書(shū)館、信息所的信息檢索工具室所陳列的信息檢索工具的方式進(jìn)行選擇;

    (3)從所熟悉的信息檢索工具中選擇;

    (4)主動(dòng)向工作人員請教;

    (5)通過(guò)網(wǎng)絡(luò )在線(xiàn)幫助選擇。

    2、選擇信息檢索系統的原則:

    (1)收錄的文獻信息需含蓋檢索課題的主題內容;

    (2)就近原則,方便查閱;

    (3)盡可能質(zhì)量較高、收錄文獻信息量大、報道及時(shí)、索引齊全、使用方便;

    (4)記錄來(lái)源,文獻類(lèi)型,文種盡量滿(mǎn)足檢索課題的要求;

    (5)數據庫是否有對應的印刷型版本;

    (6)根據經(jīng)濟條件選擇信息檢索系統;

    (7)根據對檢索信息熟悉的程度選擇;

    (8)選擇查出的信息相關(guān)度高的網(wǎng)絡(luò )搜索引擎。

     

    三、選擇檢索詞

           確定檢索詞的基本方法:選擇規范化的檢索詞;使用各學(xué)科在國際上通用的、國外文獻中出現過(guò)的術(shù)語(yǔ)作檢索詞;找出課題涉及的隱性主題概念作檢索詞;選擇課題核心概念作檢索詞;注意檢索詞的縮寫(xiě)詞、詞形變化以及英美的不同拼法;聯(lián)機方式確定檢索詞。

     

    制定檢索策略 查閱檢索工具

    1、制定檢索策略的前提條件是要了解信息檢索系統的基本性能,基礎是要明確檢索課題的內容要求和檢索目的,關(guān)鍵是要正確選擇檢索詞和合理使用邏輯組配。

    2、產(chǎn)生誤檢的原因可能有:一詞多義的檢索詞的使用;檢索詞與英美人的姓名、地址名稱(chēng)、期刊名稱(chēng)相同;不嚴格的位置算符的運用;檢索式中沒(méi)有使用邏輯非運 算;截詞運算不恰當;組號前忘記輸入指令“s”;邏輯運算符號前后未空格;括號使用不正確;從錯誤的組號中打印檢索結果;檢索式中檢索概念太少。

    3、產(chǎn)生漏檢的原因或檢索結果為零的原因可能有:沒(méi)有使用足夠的同義詞和近義詞或隱含概念;位置算符用得過(guò)嚴、過(guò)多;邏輯“與”用得太多;后綴代碼限制得太嚴;檢索工具選擇不恰當;截詞運算不恰當;單詞拼寫(xiě)錯誤、文檔號錯誤、組號錯誤、括號不匹配等。

    4、提高查準率的方法有:使用下位概念檢索;將檢索詞的檢索范圍限在篇名、敘詞和文摘字段;使用邏輯“與”或邏輯“非”;運用限制選擇功能;進(jìn)行進(jìn)階檢或高級檢索。

    5、提高查全率的方法有:選擇全字段中檢索;減少對文獻外表特征的限定;使用邏輯“或”;利用截詞檢索;使用檢索詞的上位概念進(jìn)行檢索;把(W)算符改成(1N),(2N);進(jìn)入更合適的數據庫查找。

     

    五、處理檢索結果

    將所獲得的檢索結果加以系統整理,篩選出符合課題要求的相關(guān)文獻信息,選擇檢索結果的著(zhù)錄格式,辨認文獻類(lèi)型、文種、著(zhù)者、篇名、內容、出處等項記錄內容,輸出檢索結果。

    六、原始文獻的獲取

    1、利用二次文獻檢索工具獲取原始文獻

    2、利用館藏目錄和聯(lián)合目錄獲取原始文獻

    3、利用文獻出版發(fā)行機構獲取原始文獻

    4、利用文獻著(zhù)者獲取原始文獻

    5、利用網(wǎng)絡(luò )獲取原始文獻

    垂直搜索引擎

    概述

     

      定義

      垂直搜索引擎是應用于某一個(gè)行業(yè)、專(zhuān)業(yè)的搜索引擎,是搜索引擎的延伸和應用細分化。垂直搜索引擎為用戶(hù)提供的并不是上百甚至上千萬(wàn)相關(guān)網(wǎng)頁(yè),而是范圍極為縮小、極具針對性的具體信息。因此,特定行業(yè)的用戶(hù)更加青睞垂直搜索引擎,是垂直搜索引擎的長(cháng)期、穩定的群體。

      發(fā)展前景

      搜索引擎的出現,整合了眾多網(wǎng)站信息,恰恰起到了信息導航的作用。通用搜索引擎就如同互聯(lián)網(wǎng)*次出現的門(mén)戶(hù)網(wǎng)站一樣,大量的信息整合導航,極快的查 詢(xún),將所有網(wǎng)站上的信息整理在一個(gè)平臺上供網(wǎng)民使用,于是信息的價(jià)值*次普遍的被眾多商家認可,迅速成為互聯(lián)網(wǎng)中*有價(jià)值的領(lǐng)域?;ヂ?lián)網(wǎng)的低谷由此演變 為第二次高峰。大家熟知的搜索引擎Google、百度、雅虎等是通用搜索引擎現如今的*代表,他們?yōu)榛ヂ?lián)網(wǎng)的發(fā)展做出了重要的貢獻。然而,搜索引擎行業(yè) 也不是一家公司就可以獨撐天下的,從百度的上市、yahoo中國的并購一系列動(dòng)作表明,如今的搜索引擎大戰如同門(mén)戶(hù)網(wǎng)站初期的競爭一樣激烈。相信,通用搜 索引擎在經(jīng)歷過(guò)一段時(shí)間的角逐后,也將會(huì )繼續維持幾大服務(wù)商各自分控一部分市場(chǎng)的局面。

      垂直搜索引擎概念的提出,就是針對性的為某一特定領(lǐng)域、某一特定人群或某一特定需求提供的有一定價(jià)值的信息和相關(guān)服務(wù)??梢院?jiǎn)單的說(shuō)成是搜索引擎領(lǐng)域 的行業(yè)化分工。眾多專(zhuān)業(yè)性網(wǎng)站、行業(yè)網(wǎng)站獨立服務(wù)于互聯(lián)網(wǎng)的成功,恰恰證明了互聯(lián)網(wǎng)的格局應該是多方面的。通用搜索引擎的性質(zhì),決定了其不能滿(mǎn)足特殊領(lǐng) 域、特殊人群的精準化信息需求服務(wù)。市場(chǎng)需求多元化決定了搜索引擎的服務(wù)模式必將出現細分,針對不同行業(yè)提供更加*的行業(yè)服務(wù)模式??梢哉f(shuō)通用搜索引擎 的發(fā)展為垂直搜索引擎的出現提供了良好的市場(chǎng)空間,勢必將出現垂直搜索引擎在互聯(lián)網(wǎng)中占據部分市場(chǎng)的趨勢,也是搜索引擎行業(yè)細分化的必然趨勢。

    與通用搜索引擎的異同

     

      策略不同

      垂直搜索不只是類(lèi)google的行業(yè)通用搜索。以房產(chǎn)行業(yè)為例,如果我們按照google抓取網(wǎng)頁(yè)的方式,來(lái)建造一個(gè)房產(chǎn)行業(yè)google的做法,是 行不通的。技術(shù)壁壘不用解釋?zhuān)退阄覀兘柚鷑utch,lucene等搜索技術(shù)來(lái)做,我們也無(wú)法提供差異化的服務(wù),而沒(méi)有差異化的產(chǎn)品在互聯(lián)網(wǎng)贏(yíng)家通吃的 規則下是無(wú)法生存的,就是不要簡(jiǎn)單地模仿,而要想辦法形成互補。

      技術(shù)相同

      垂直搜索和目前的google,baidu等通用搜索從定位,內容,用戶(hù),市場(chǎng)策略等都是不同的。所以垂直搜索不只是簡(jiǎn)單的行業(yè)google。用戶(hù)使 用google,baidu等通用搜索引擎的方式是通過(guò)關(guān)鍵字的方式實(shí)現的,是語(yǔ)義上的搜索,返回的結果傾向于知識成果,比如文章,論文,新聞等;垂直搜 索也是提供關(guān)鍵字來(lái)進(jìn)行搜索的,但被放到了一個(gè)行業(yè)知識的上下文中,返回的結果更傾向于信息,消息,條目等。對買(mǎi)房的人講,他希望找的房子供求信息和文 章,新聞等不同。這個(gè)特性是他們各自的的技術(shù)特點(diǎn)決定的。打個(gè)比方,如果google搜索引擎是一個(gè)正金字塔型,那么垂直搜索引擎就是個(gè)倒金字塔型,兩者 是互補的。

      三個(gè)特點(diǎn)

      垂直搜索的特點(diǎn):

      1、搜索是一個(gè)產(chǎn)業(yè)商業(yè)聯(lián)盟的平臺,一個(gè)集成產(chǎn)業(yè)鏈的上下游公司的搜索門(mén)戶(hù)。

      2、垂直搜索的表現方式和google,baidu的表現方式不同,結構化的搜索和非結構化搜索并用。

      3、從廣告模式上 提供了除 google adsense 和 百度競價(jià)排名廣告 之外的另一種可能。

    垂直搜素引擎內容數據來(lái)源

     

      內容來(lái)源

      1、門(mén)戶(hù)網(wǎng)站自身的資源 。

      2、以開(kāi)放接口方式讓行業(yè)用戶(hù)提供的資源。

      3、普通用戶(hù)發(fā)布的資源 。

      4、抓取行業(yè)用戶(hù)的資源。

      數據來(lái)源

      1、垂直搜索引擎抓取的數據來(lái)源于垂直搜索引擎關(guān)注的行業(yè)站點(diǎn)。

      2、垂直搜索引擎抓取的數據傾向于結構化數據和元數據。

      3、垂直搜索引擎的搜索行為是基于結構化數據和元數據的結構化搜索。

      進(jìn)入門(mén)檻

      進(jìn)入垂直搜索的門(mén)檻在哪里?

      在互聯(lián)網(wǎng)上說(shuō)門(mén)檻,就是比資源。垂直搜索也是這樣,能否提供全面權威的行業(yè)信息,能否擁有行業(yè)資源是垂直搜索引擎發(fā)展的門(mén)檻。換句話(huà)說(shuō),垂直門(mén)戶(hù)是垂直搜索血統*近的父親。作為房產(chǎn)行業(yè)的房產(chǎn)網(wǎng)就是一個(gè)垂直門(mén)戶(hù),在房產(chǎn)領(lǐng)域沒(méi)有誰(shuí)比我們更清楚什么是垂直搜索了。

      垂直搜索的難點(diǎn)不是技術(shù),而是用戶(hù)參與門(mén)戶(hù)網(wǎng)站行為的創(chuàng )新和垂直門(mén)戶(hù)網(wǎng)站對產(chǎn)業(yè)上下游信息資源的整合。

      八條準則

      1、選擇一個(gè)好的垂直搜索方向。俗話(huà)說(shuō)男怕選錯行,這一點(diǎn)對于搜索引擎來(lái)說(shuō)也是一樣的,除了選擇的這個(gè)行業(yè)有垂直搜索的大量需求外,這個(gè)行業(yè)的數據屬 性*好不要和通用搜索的的抓取方向重疊。目前熱門(mén)的垂直搜索行業(yè)有:購物,旅游,汽車(chē),工作,房產(chǎn),交友等行業(yè)。搜索引擎對動(dòng)態(tài)url數據不敏感也是眾所 周知的,這些可以作為垂直搜索引擎的切入點(diǎn)。

      2、評價(jià)所選垂直搜索行業(yè)的網(wǎng)站、垂直搜索內容、行業(yè)構成等情況:我們都知道垂直搜索引擎并不提供內容來(lái)源,它的數據依賴(lài)爬蟲(chóng)搜集,并做了深度加工而來(lái)的。因此考慮垂直搜索引擎的所處的大環(huán)境和定位至關(guān)重要。

      3、深入分析垂直搜索引擎的索引數據特點(diǎn):垂直搜索引擎的索引數據過(guò)于結構化,那么進(jìn)入的門(mén)檻比較低,行業(yè)競爭會(huì )形成一窩蜂的局面;如果搜索數據特點(diǎn)是非結構化的,抓取,分析這樣的數據很困難,進(jìn)入壁壘太高,很可能出師未捷身先死。

      4、垂直搜索引擎的索引數據傾向于結構化數據和元數據,這個(gè)特點(diǎn)是區別于通用搜索引擎的,這是垂直搜索引擎的立足點(diǎn)。而垂直搜索引擎是根植于某一個(gè)行業(yè),因此行業(yè)知識,行業(yè)專(zhuān)家這些也是通用搜索引擎不具備的。也就是說(shuō)進(jìn)入垂直搜索是有門(mén)檻的。

      5、垂直搜索引擎的搜索結果要覆蓋整個(gè)行業(yè),搜索相關(guān)性要高于通用搜索引擎,貼近用戶(hù)搜索意圖,搜索結果要及時(shí)。

      6、垂直搜索引擎的搜索數據由于帶有結構化的天性,相對于通用搜索引擎的全文索引而言,更顯的少而精。因此,設計的時(shí)候要提供收集用戶(hù)數據的接口,同時(shí)提供tag,積分等機制,使搜索結果更加“垂直”。

      7、垂直搜索引擎的目標是幫助用戶(hù)解決問(wèn)題,而不只是向通用搜索引擎一樣發(fā)現信息:這一點(diǎn)是垂直搜索引擎的終極目標。在做垂直搜索引擎的時(shí)候你需要考 慮:什么問(wèn)題是這個(gè)行業(yè)內的特殊性問(wèn)題,什么問(wèn)題是一般性問(wèn)題。keso多次提到google的目標是讓用戶(hù)盡快離開(kāi)google,而垂直搜索引擎應該粘 住用戶(hù)。一般來(lái)說(shuō),使用垂直搜索引擎的用戶(hù)都是和用戶(hù)的利益需求密切相關(guān)的。所謂利益需求是我自己獨創(chuàng )的,大意是和用戶(hù)工作密切相關(guān),生活中必不可少的需 求,而求有持續性。比如:學(xué)生找論文,業(yè)主找裝修信息等等這樣的需求。因此粘住用戶(hù),讓用戶(hù)有反饋的途徑是一個(gè)關(guān)鍵部分。

      8、垂直搜索引擎的社區化特征:這一條和第9條是相關(guān)的。俗話(huà)說(shuō)物以類(lèi)聚,人以群分,垂直搜索引擎定位于一個(gè)行業(yè),服務(wù)于一群特定需求的人群,這個(gè)特 點(diǎn)決定了垂直搜索的社區化行為。人們利用垂直搜索引擎解決問(wèn)題,分享回饋?,F在做網(wǎng)站都講求社區化,所以垂直搜索引擎本質(zhì)上還是:對垂直門(mén)戶(hù)信息提供方式 的一次簡(jiǎn)化性的整合。

    垂直搜索引擎的特點(diǎn)

     

      快速直達

      1.中文直達。直達各大知名網(wǎng)站、論壇、聯(lián)盟站點(diǎn),數據實(shí)時(shí)更新,中文直達服務(wù)讓用戶(hù)搜索一步到位.

      2.關(guān)鍵詞直達網(wǎng)站。商家可以提交自己的關(guān)鍵詞,讓客戶(hù)輸入關(guān)鍵詞直達您的網(wǎng)站,增加無(wú)限商機

      3.站內直達。直達網(wǎng)站內各頻道、欄目,站內直達滿(mǎn)足用戶(hù)在網(wǎng)站的全方位服務(wù).

      方便搜索

      1.功能強大。提供強大的搜索功能, 多款引擎隨時(shí)切換, 讓用戶(hù)操作變得更加輕松便捷.

      2.搜索發(fā)現。用戶(hù)進(jìn)入搜索首頁(yè), 瀏覽器會(huì )提示用戶(hù)發(fā)現了新的搜索引擎, 并可將其設為默認.

      3.內容全面。聚合常用搜索及垂直搜索, 聚合各大熱門(mén)搜索引擎, 多項搜索多重性能.

      4.完美兼容。界面設計 符合標準, 在不同內核的瀏覽器上均可正常使用. 5、安全*。收錄大量網(wǎng)上銀行、證券、股票、咨詢(xún)、新聞等網(wǎng)址, 不再擔心進(jìn)入釣魚(yú)網(wǎng)站.所有直達關(guān)鍵詞網(wǎng)站,均嚴格經(jīng)過(guò)叮鈴鈴各項指標的檢驗,有利的排斥了虛假廣告、假冒產(chǎn)品、不良信息的商家網(wǎng)站。

      資源共享

      結合網(wǎng)站,按您的需要生成不同樣式、不同功能的搜索框代碼, 輕松將搜索服務(wù)與網(wǎng)站結合.

      精準搜索

      垂直搜索引擎一般都提供了比較精準或者細化的搜索服務(wù),因此使用垂直搜索引擎有時(shí)候能取得更精準的搜索結果。附:垂直搜索引擎索引,發(fā)布國內外高質(zhì)量的垂直搜索引擎。

    垂直搜索引擎框架

     

      抓取系統

      也就是蜘蛛程序,負責從信息源抓取數據,蜘蛛程序通常是基于預先構造的模板工作的,無(wú)模板的蜘蛛程序只能處理結構相對簡(jiǎn)單的信息,抓取系統涉及的關(guān)鍵 技術(shù)點(diǎn)有爬行路徑分析、增量抓取與全抓取、信息構造完整性、信息*性識別、多網(wǎng)頁(yè)信息整合、自動(dòng)標引(此功能也可以單獨提出)等;

      索引系統

      把抓來(lái)的信息建立類(lèi)似書(shū)目的數據文件,以便于實(shí)現高速檢索。索引系統涉及的關(guān)鍵技術(shù)點(diǎn)有分詞技術(shù)、預評分和后評分、增量索引與全索引、排序技術(shù)、熱點(diǎn)詞高速緩存、標準檢索語(yǔ)句解析等;

      搜索系統

      就是提供搜索功能的網(wǎng)站,網(wǎng)站的具體表現形式大不相同,但是都提供全文搜索功能,除了搜索功能外,還提供與業(yè)務(wù)相關(guān)的其他功能,譬如按地域導航檢索、 會(huì )員注冊、訂閱等。很多人把GOOGLE、百度稱(chēng)之為站外搜索,而把其他基于數據庫的搜索稱(chēng)之為站內搜索,其實(shí)所有的搜索引擎提供的都是站內搜索,數據都 是預先存儲在本地的。

    購物垂直搜索引擎

     

      購物搜索引擎可以理解為搜索引擎的一種細分,即在網(wǎng)上購物領(lǐng)域的專(zhuān)業(yè)搜索引擎。

      常規意義上基于網(wǎng)頁(yè)搜索的搜索引擎在搜索結果中的內容是根據相關(guān)性排列的來(lái)源于其他網(wǎng)站的內容索引,與此類(lèi)似,購物搜索引擎的檢索結果也來(lái)自于被收錄 的網(wǎng)上購物網(wǎng)站,這樣當用戶(hù)檢索某個(gè)商品時(shí),所有銷(xiāo)售該商品的網(wǎng)站上的產(chǎn)品記錄都會(huì )被檢索出來(lái),用戶(hù)可以根據產(chǎn)品價(jià)格、對網(wǎng)站的信任和偏好等因素進(jìn)入所選 擇的網(wǎng)上購物網(wǎng)站購買(mǎi)產(chǎn)品。

      購物搜索引擎與一般的網(wǎng)頁(yè)搜索引擎相比的主要區別在于,除了搜索產(chǎn)品、了解商品說(shuō)明等基本信息之外,通常還可以進(jìn)行商品價(jià)格價(jià)格比較、并且可以對產(chǎn)品 和在線(xiàn)商店進(jìn)行評級,這些評比結果指標對于用戶(hù)購買(mǎi)決策有一定的影響,尤其對于知名度不是很高的網(wǎng)上零售商,通過(guò)購物搜索引擎,不僅增加了被用戶(hù)發(fā)現的機 會(huì ),如果在評比上有較好的排名,也有助于增加顧客的信任。以BizRate為例,用戶(hù)不僅可以用多種方式進(jìn)行檢索,如產(chǎn)品名稱(chēng)、品牌名、網(wǎng)站名稱(chēng)等,用戶(hù) 還可以對產(chǎn)品進(jìn)行評比,可以發(fā)表自己的意見(jiàn),這些信息也可以被別的用戶(hù)參考。因此當用戶(hù)使用購物搜索引擎檢索商品時(shí),可以獲得比較豐富的信息,對制定商品 購買(mǎi)決策有較大的參考價(jià)值。這也從另一個(gè)角度說(shuō)明,網(wǎng)上商店利用購物引擎進(jìn)行推廣可以增加被用戶(hù)發(fā)現的機會(huì ),從而達到促銷(xiāo)的目的,因而成為網(wǎng)上銷(xiāo)售的一種 常用促銷(xiāo)手段。

    垂直搜索和通用搜索的區別

     

      垂直搜索引擎和普通的網(wǎng)頁(yè)搜索引擎的*大區別是對網(wǎng)頁(yè)信息進(jìn)行了結構化信息抽取,也就是將網(wǎng)頁(yè)的非結構化數據抽取成特定的結構化信息數據,好比網(wǎng)頁(yè)搜 索是以網(wǎng)頁(yè)為*小單位,基于視覺(jué)的網(wǎng)頁(yè)塊分析是以網(wǎng)頁(yè)塊為*小單位,而垂直搜索是以結構化數據為*小單位。然后將這些數據存儲到數據庫,進(jìn)行進(jìn)一步的加工 處理,如:去重、分類(lèi)等,*后分詞、索引再以搜索的方式滿(mǎn)足用戶(hù)的需求。整個(gè)過(guò)程中,數據由非結構化數據抽取成結構化數據,經(jīng)過(guò)深度加工處理后以非結構化 的方式和結構化的方式返回給用戶(hù)。

    分享到:

    上一篇:游戲運營(yíng)

    下一篇:互聯(lián)網(wǎng)相關(guān)知識-搜索引擎收錄

    青青草原综合久久大伊人_日日摸夜夜欧美一区二区_99热这里只有精品9988_亚洲综合色区另类第一会所