當前位置:成語大全網 - 英語詞典 - 中文分詞中正向最大匹配算法的分詞速度是多少?準確率大概為多少?

中文分詞中正向最大匹配算法的分詞速度是多少?準確率大概為多少?

主要看妳的詞表結構了,最大詞長的初始值,查詞典的次數和匹配的次數,然後得出時間復雜度,原始hash算法復雜度沒記錯的話應該是2.89,11年看過壹個文獻,提出壹種改進的算法時間復雜度是2.291……

另外,分詞算法並不是原封不動的,比如有些搜索引擎的詞表結構就采用tire樹結構,這樣不用設置最大詞長,不過內存空間方面就要有取舍,甚至還有采用減少查典次數增加匹配次數的搜索引擎……

所以單純的給妳壹個189.3m/M純內存分詞速度,但是這算法換個臺更高配置的服務器卻變成了497.6ms/M,這沒有任何意義……

記得哪個文獻上有人說,分詞本身不是目的,而是後續處理過程的必要階段,所以,除非妳是研究算法的,否則單純追求這東西的速度和準確率沒什麽太大意義