當前位置:成語大全網 - 新華字典 - 如何能壹段中文內容進行詞語頻率統計並排序?

如何能壹段中文內容進行詞語頻率統計並排序?

想要進行詞頻統計,妳要多的第壹部是要得到裏面有多少個詞。也就是首先妳要對全文進行切分,按照詞性 動詞、名詞、語氣詞等多種詞性區分開,顯然,如果妳想從0開始這麽做,妳還需要有壹個詞典,這個詞典應當包括了多有的詞,然後挨個字去字典裏找匹配,才能分開。

對於個人開發者來說這很難。但好在有很多大的雲計算服務商他們已經將這種事情給我們做好了,雖然並非那麽完美,妳有需要的話 可以搜索壹下 新浪SAE所提供的分詞服務。