閑話少說,直接上網站:
corpus.org/
這是教育部語言應用研究所計算語言學研究室開發的“在線語料庫”。這個網站的壹個功能就是詞頻分析。讓我以分析文本《阿q正傳》為例來介紹如何使用這個網站。
《阿q正傳》* *的統計結果是2948個字和符號,這裏的“出現頻率”單位是百分比(%):
第壹個詞是“的”,出現712次,占全文的4.4453%。對嗎?我們來查壹下原話:
在word中,我們發現了747個“的”,比上述統計結果多了35個。為什麽?
原因很簡單。有的“得”被切割成其他詞,如“像”、“其他”、“確實”,加起來有747個,不在少數。
不過這個工具確實有壹些不完善的地方,比如同壹個詞重復出現或者被剪錯了,所以使用的時候壹定要在excel中過濾。
如上圖所示,趙、、反復出現,也出現在家。檢查單詞,單詞趙佳確實出現了11次。
但是,這種不完美並不妨礙使用。畢竟這個工具可以提供壹個可靠的線索,準確的數據需要在excel中仔細統計。
我們來看看《阿q正傳》中荀翁最喜歡哪些詞。
單詞:
這20個詞* * *加在壹起出現了5118次,占全文的31.95%!
詞匯:
《阿q正傳》不是語料庫中的壹個詞,所以沒有被刪減。這個詞在文章中出現了274次,應該排在第壹位。
從結果來看,荀翁和大家壹樣,喜歡用口語化的詞語。在壹篇壹萬多字的文章裏,他用了45次“因為”和“35次!但荀翁就是荀翁,這些平凡的文字在他的作品中出神入化,構成了文學經典。
如果妳有興趣,不妨試試這個工具。