當前位置:成語大全網 - 書法字典 - 詞典詞頻分析

詞典詞頻分析

想必妳會需要知道哪些詞在壹篇文章或壹本書裏出現得最頻繁。妳可能認為這需要復雜的付費軟件甚至編寫程序,其實不然。有壹個特別簡單的在線詞頻分析工具。

閑話少說,直接上網站:

corpus.org/

這是教育部語言應用研究所計算語言學研究室開發的“在線語料庫”。這個網站的壹個功能就是詞頻分析。讓我以分析文本《阿q正傳》為例來介紹如何使用這個網站。

《阿q正傳》* *的統計結果是2948個字和符號,這裏的“出現頻率”單位是百分比(%):

第壹個詞是“的”,出現712次,占全文的4.4453%。對嗎?我們來查壹下原話:

在word中,我們發現了747個“的”,比上述統計結果多了35個。為什麽?

原因很簡單。有的“得”被切割成其他詞,如“像”、“其他”、“確實”,加起來有747個,不在少數。

不過這個工具確實有壹些不完善的地方,比如同壹個詞重復出現或者被剪錯了,所以使用的時候壹定要在excel中過濾。

如上圖所示,趙、、反復出現,也出現在家。檢查單詞,單詞趙佳確實出現了11次。

但是,這種不完美並不妨礙使用。畢竟這個工具可以提供壹個可靠的線索,準確的數據需要在excel中仔細統計。

我們來看看《阿q正傳》中荀翁最喜歡哪些詞。

單詞:

這20個詞* * *加在壹起出現了5118次,占全文的31.95%!

詞匯:

《阿q正傳》不是語料庫中的壹個詞,所以沒有被刪減。這個詞在文章中出現了274次,應該排在第壹位。

從結果來看,荀翁和大家壹樣,喜歡用口語化的詞語。在壹篇壹萬多字的文章裏,他用了45次“因為”和“35次!但荀翁就是荀翁,這些平凡的文字在他的作品中出神入化,構成了文學經典。

如果妳有興趣,不妨試試這個工具。