對於企業用戶來說,僅僅呈現搜索結果集是遠遠不夠的。因此,蟬提供了豐富的搜索應用,通過搜索引擎剛訪問、個人搜索年輪、知識聯想、個性化查詢者等多種應用形式,為用戶提供不同角度、不同體驗的不同搜索方式。通過這些應用,可以增強用戶的感受,加強系統與用戶的互動關系。
蟬搜索過程示意圖
基於以上,知了提出並采用了全新的“全文搜索+數據庫搜索+搜索應用”三位壹體的技術和產品理念,既保證了系統通過全文搜索獲得快速準確的結果,又結合數據庫搜索實現了時間、來源、好評等多種數據庫字段的查詢,兩者的結合使得搜索結果更加符合用戶的搜索訴求。同時增加了搜索應用的很多功能,從應用的角度為用戶提供更加得心應手的應用,讓系統更加智能的為用戶提供服務。這種知識搜索引擎的技術創新也成為了知了的產品開發方向和核心競爭力。與英語中的自然分詞不同,中文分詞有著眾所周知的困難。把中文句子分割成有意義的詞,就是中文分詞,也叫分詞。目前還是壹個難題——需要上下文差異的詞和新詞(人名、地名等)難以劃分。)完美。同樣存在分詞問題的中國、日本和韓國在國際上被稱為CJK(中文日語韓語)。分詞機制的好壞直接影響用戶對搜索結果的滿意度,所以如何分詞是搜索引擎的重中之重。
到目前為止,中文分詞包括三種方法:1)基於字符串匹配的分詞;2)基於理解的分詞;3)基於統計的分詞。下面是三種分詞方法的比較:基於字符串匹配的分詞方法,基於理解的分詞方法,基於統計的分詞方法,歧義識別,識別差,新詞識別差,需要詞典,需要語料庫,不,需要規則庫,不,不,不,算法復雜度有易有難。技術成熟不成熟,實施難度大。壹般分詞的準確度是準和準,分詞的速度有快有慢。蟬知識搜索引擎系統壹般使用“蟬的翅膀刀”作為分詞裝置,意思是快速細致的分詞。該分詞系統采用“基於字符串匹配的分詞和統計分詞”相結合的方法。利用統計方法動態擴展詞典,即獨立設置被搜索詞出現頻率的閾值,超過閾值的詞自動加入學習詞典,從而克服了基於詞典的算法對完整詞典的依賴。字典用於學習和評估壹些統計參數,避免了以往實驗獲得的這些參數的不確定性,將RMM算法和統計算法結合起來。專業詞庫除了通過自主學習獲取生詞,還可以通過人工維護的方式進行維護。目前,知了基礎分詞詞庫已達50萬,財稅、制造、咨詢詞庫達20萬左右。
與目前流行的算法相比,蟬翅刀在準確率、召回率和分詞效率的綜合平衡上優勢明顯。具體對比如下。比較項蟬翼刀標準
CJK
(Lucene) Paoding分詞快,很快,快,快,準,好和差,好和差歧義識別,壹般和差新詞識別,好和差需要詞典,語料庫,規則庫,復雜算法。復雜的,簡單的,簡單的。壹般技術都是成熟的,成熟的,成熟的,實現起來很難。中小企業學習能力強,弱弱可維護性,弱弱。基於蟬的企業(知識)門戶示意圖。
基於知識搜索引擎,可以對各種數據源進行索引和查詢,同時通過搜索規則的建立,將具有指定特征的條件信息返回到信息門戶接口,從而形成統壹的企業(知識)門戶,用戶可以在其中獲取各種IT系統和數據源的最新定期信息。自定義搜索範圍:用戶可以根據自己的要求選擇想要搜索的知識範圍,而不是每次都搜索所有的數據庫,這樣可以大大減少搜索誤差,並可以根據業務或知識分類定義不同的個性化搜索項目。
搜索推薦服務:根據搜索過程的監控,推薦搜索到的熱詞;搜索行為推薦可以推薦搜索了當前詞匯的用戶,以及搜索了哪些其他詞匯;推薦與當前關鍵詞相關的關鍵詞。通過主動推薦服務,用戶可以快速找到自己需要的東西。
搜索聯想詞。記錄搜索者常用的搜索關鍵詞。當用戶輸入關鍵詞時,會自動提醒其他用戶常用的搜索關鍵詞以供選擇。引導用戶使用高頻關鍵詞,提高命中率。
文件服務器全文搜索:對於文件服務器,索引數據並定制壹個全文搜索引擎,可以搜索文件夾中文檔的名稱和內容。
多格式附件全文搜索:知識發布時對附件進行全文搜索,包括附件的名稱和內容,根據附件的格式進行搜索,以及附件的html格式快照。打開快照以預覽附件內容。
邏輯關系高級搜索功能:支持包括、完全包括、至少包括壹個、不包括等邏輯關系的搜索。,方便用戶根據自己的查詢條件設計查詢公式。
結果中的搜索功能:在搜索結果中,進行二次篩選搜索,實現漸進式搜索命中。
個性化查詢者:用戶可以根據自己的使用習慣,結合系統提供的查詢條件,保存為個性化查詢者。輸入關鍵字後,系統會根據查詢條件的組合進行搜索。
只是訪問:用戶可以按照時間軌跡對搜索結果進行排序,找到與自己最接近的或者某個時間段的特定信息,排除其他不必要時間段的信息。