當前位置:成語大全網 - 書法字典 - 開源搜索20個開源搜索引擎系統

開源搜索20個開源搜索引擎系統

介紹了壹些開源搜索引擎系統,包括開源Web搜索引擎和開源桌面搜索引擎。

斯芬德

Sphider是PHP開發的輕量級網絡蜘蛛和搜索引擎,使用mysql存儲數據。妳可以用它給妳的網站增加搜索功能。Sphider非常小,易於安裝和修改,已被數千家網站使用。

RiSearch PHP

RiSearch PHP是壹款高效強大的搜索引擎,特別適合中小型網站。RiSearch PHP很快。它可以在不到1秒的時間內搜索5000-10000個頁面。RiSearch是壹個索引搜索引擎,也就是說它首先對妳的網站進行索引,建立壹個數據庫,存儲妳的網站所有頁面的關鍵詞,以便快速搜索。Risearch是壹個全文搜索引擎腳本,它將所有關鍵字編譯成壹個文檔索引,配置文件中定義排除的除外。RiSearch使用經典的反向索引算法(與大型搜索引擎相同),這也是它比其他搜索引擎更快的原因。

PhpDig

PhpDig是由PHP開發的網絡爬蟲和搜索引擎。通過索引動態和靜態頁面來構建術語表。在搜索查詢時,會按照壹定的排序規則顯示包含關鍵詞的搜索結果頁面。PhpDig包括壹個模板系統,可以索引PDF、Word、Excel和PowerPoint文檔。PHPdig適用於更專業化、更深層次的個性化搜索引擎,是構建某壹領域垂直搜索引擎的最佳選擇。

OpenWebSpider

OpenWebSpider是壹個開源的多線程網絡蜘蛛(機器人,爬蟲),是壹個搜索引擎,有很多有趣的功能。

埃戈托爾

Egothor是壹個用Java編寫的開源高效的全文搜索引擎。憑借Java的跨平臺特性,Egothor可以應用於任何環境,可以配置為單獨的搜索引擎,也可以在妳的應用中進行全文檢索。

上下真空濾器

Nutch是壹個開源的Java實現的搜索引擎。它提供了我們運行自己的搜索引擎所需的所有工具。包括全文搜索和網絡爬蟲。

全文搜索引擎

Apache Lucene是壹個基於Java的全文搜索引擎,可以很方便地在Java軟件中添加全文搜索功能。Lucene的主要工作是索引文檔的每個單詞。與傳統的逐字比較相比,索引大大提高了搜索的效率。Lucene提供了壹組API,用於讀取、過濾、分析文檔、排列和使用索引。它的強大之處不僅在於高效簡單,最重要的是用戶可以根據自己的需求隨時定制它的功能。

氧氣

是壹個純java編寫的網絡搜索引擎。

BDDBot

BDDBot是壹個簡單的搜索引擎,易於理解和使用。它目前正在壹個文本文件(urls.txt)中列出的URL中爬行,並將結果保存在數據庫中。它還支持壹個簡單的Web服務器,接受來自瀏覽器的查詢並返回響應結果。它可以很容易地集成到您的網站中。

Zilverline

Zilverline是壹個搜索引擎,它通過web搜索本地硬盤或內部網的內容。Zilverline可以從PDF、Word、Excel、Powerpoint、RTF、txt、java、CHM、zip、rar等文檔中抓取它們的內容,建立摘要和索引。可以再次檢索從本地硬盤或內部網找到的結果。Zilverline支持多種語言,包括中文。

XQEngine

XQEngine用於XML文檔的全文搜索引擎。使用XQuery作為其前端查詢語言。它使您能夠通過使用關鍵字的邏輯組合來查詢XML文檔集合。有點像Google等搜索引擎搜索HTML文檔。XQEngine只是壹個用Java開發的緊湊的可嵌入組件。

MG4J

MG4J允許您通過使用插值編碼技術,為大量文檔集合構建壓縮的全文索引。

JXTA搜索

JXTA搜索是壹個分布式搜索系統。專為點對點網絡和網站設計。

亞西

基於p2p的分布式網絡搜索引擎。它也是壹個Http緩存代理服務器。該項目是壹種基於p2p網絡構建索引網絡的新方法。它可以搜索妳自己的或全球的索引,抓取妳自己的網頁或開始分布式抓取。

紅色食人魚

Red-Piranha是壹個開源的搜索系統,可以真正“學習”妳要找的東西。Red-Piranha可以用作您桌面系統(Windows、Linux和Mac)的個人搜索引擎,或內部網搜索引擎,或為您的網站提供搜索功能,或作為P2P搜索引擎,或作為與wiki結合的知識/文檔管理解決方案,或搜索您想要的RSS聚合信息,或搜索您公司的系統(包括s a P、Oracle或任何其他數據庫/數據源),或用於管理PDF、Word和其他文檔,或作為提供搜索信息或為您的應用程序提供搜索背景的Web服務(Web、Swing、SWT、Flash、Mozilla網)等。

劉氏

LIUS是壹個基於Jakarta Lucene項目的索引框架。LIUS為Lucene增加了針對多種文件格式的索引功能,例如:Ms Word、Ms Excel、Ms PowerPoint、RTF、PDF、XML、HTML、TXT、Open Office sequence和JavaBeans。當我們想索引數據庫或者用戶只是使用持久的ORM技術,如:Hibernate、JDO、Torque和TopLink進行開發時,JavaBeans的索引特別有用。

阿帕奇索爾

Solr是由Java5開發的基於Lucene的高性能全文搜索服務器。通過Http使用XML將文檔添加到搜索集合中。查詢這個集合也是通過搜索內容,而不是搜索自己的文檔或文件。使用recreat,您可以在幾秒鐘內輕松完成大量數據(許多G)的搜索。recreat采用了Lucene的搜索語法,因此支持多種查詢方式、多索引搜索和基於文件類型的高級搜索,並且可以將URL和橋文件重寫為HTTP,還提供了良好的中文支持。

recreat提供兩個版本:桌面搜索和服務器搜索。桌面搜索提供了在局域網環境下快速搜索普通臺式計算機的文檔和網頁的功能。服務器版主要安裝在Web服務器上,用於在局域網環境下搜索網站和文件服務器。