百度中文分詞如何分詞
而百度中文分詞就是把詞按照壹定的規格,將壹個長尾詞分割成幾個部分,從而概括壹段話的主要內容。在百度中文分詞中,百度強調的是:壹、 字符串匹配的分詞方法。我們需要有壹定的字符串做基礎,就是壹段詞用字符分開,比如標點符號,空格等。才能夠進行分詞匹配,我們把這些字符串叫做機械詞典。機械詞典的個數不定。由每個搜索引擎自己確定。每個機械詞典之間還會有優先級。字符串匹配的分詞方法最常用的有幾種:1、正向最大匹配法(由左到右的方向)2、逆向最大匹配法(由右到左的方向)3、最少切分(使每壹句中切出的詞數最小)百度中文分詞基於字符串匹配舉例給大家說明壹下:“我想去澳大利亞旅遊”正向最大匹配:我想去,澳大利亞旅遊逆向最大匹配:我想,想去,澳大利亞,旅遊。最少切分:我把上面哪句話分成的詞要是最少的“我想去,澳大利亞旅遊”這就是最短路徑分詞法,分出來就只有2個詞了。另外,不同的搜索的詞典不同,分出來的詞也不同。二、理解的分詞方法。這種分詞方法不需要機械詞典。這種其實就是壹種機器語音判斷的分詞方法。很簡單,進行句法、語義分析,利用句法信息和語義信息來處理歧義現象來分詞,這種分詞方法,現在還不成熟。處在測試階段。三、統計的分詞方法。這個顧名思義,就是根據詞組的統計,發現那些相鄰的字出現的頻率高,那麽這個詞就很重要。可以作為用戶提供字符串中的分隔符。比如,“我的,妳的,許多的,這裏,這壹,那裏”。等等,這些詞出現的比較多,就從這些詞裏面分開來。四、對於百度中文分詞的理解:基於統計的分詞方法得到的詞或者句子的權重要高於基於字符串匹配得到的。就是全字匹配得到的詞的權重會高於分開的詞的權重。根據自己的觀察現在百度大部分都是使用的是正向匹配。百度分詞對於壹句話分詞之後,還會去掉句子中的沒有意義的詞語。