如何用python對文章中文分詞並統計詞頻

1、全局變量在函數中使用時需要加入global聲明

2、獲取網頁內容存入文件時的編碼為ascii進行正則匹配時需要decode為GB2312，當匹配到的中文寫入文件時需要encode成GB2312寫入文件。

3、中文字符匹配過濾正則表達式為ur'[\u4e00-\u9fa5]+',使用findall找到所有的中文字符存入分組

4、KEY，Value值可以使用dict存儲，排序後可以使用list存儲

5、字符串處理使用split分割，然後使用index截取字符串，判斷哪些是名詞和動詞

6、命令行使用需要導入os,os.system(cmd)