當前位置:成語大全網 - 成語詞典 - 如何用python對文章中文分詞並統計詞頻

如何用python對文章中文分詞並統計詞頻

1、全局變量在函數中使用時需要加入global聲明

2、獲取網頁內容存入文件時的編碼為ascii進行正則匹配時需要decode為GB2312,當匹配到的中文寫入文件時需要encode成GB2312寫入文件。

3、中文字符匹配過濾正則表達式為ur'[\u4e00-\u9fa5]+',使用findall找到所有的中文字符存入分組

4、KEY,Value值可以使用dict存儲,排序後可以使用list存儲

5、字符串處理使用split分割,然後使用index截取字符串,判斷哪些是名詞和動詞

6、命令行使用需要導入os,os.system(cmd)