當前位置:成語大全網 - 英語詞典 - 如何對壹篇中文內容進行詞頻統計和排序?

如何對壹篇中文內容進行詞頻統計和排序?

如果妳想做詞頻統計,首先妳需要的是得到裏面有多少單詞。也就是說,首先妳要把全文分成詞類,按照詞類動詞、名詞、語氣詞等詞類來區分。顯然,如果妳想從頭開始做這件事,妳需要有壹個字典,這個字典應該包括很多單詞,然後在字典裏壹個壹個地尋找匹配,然後才能把它們分開。

這對於個人開發者來說很難。不過好在有很多大的雲計算服務商已經在為我們做這種事情了。雖然不是那麽完美,但如果有需要可以搜索新浪SAE提供的分詞服務。