2、獲取網頁內容存入文件時的編碼為ascii進行正則匹配時需要decode為GB2312,當匹配到的中文寫入文件時需要encode成GB2312寫入文件。
3、中文字符匹配過濾正則表達式為ur'[\u4e00-\u9fa5]+',使用findall找到所有的中文字符存入分組
4、KEY,Value值可以使用dict存儲,排序後可以使用list存儲
5、字符串處理使用split分割,然後使用index截取字符串,判斷哪些是名詞和動詞
6、命令行使用需要導入os,os.system(cmd)