如何用PYTHON做分詞處理

可以利用python的jieba分詞，得到文本中出現次數較多的詞。

首先pip安裝壹下jieba，這個可以分詞

然後用計數器Counter()統計壹下得到的分詞中各詞的數量

最後most_common(5)，是打印出排名前五位的詞（包括特殊符號）

#encoding:utf-8

import?sys

reload(sys)

sys.setdefaultencoding('utf-8')

import?jieba

from?collections?import?Counter

str1?=?open('tips.txt').read()

wordlist_after_jieba?=?jieba.cut(str1,?cut_all?=?True)

list_wl?=?Counter(wordlist_after_jieba)

for?i?in?list_wl.most_common(5):

print?i[0],i[1]