樓主需要區分大小寫嗎?如果進行區分,將如下:
進口re
def get _ word _ frequencies(文件名):
dic = {}
txt = open(文件名,' r ')。閱讀()。分割線()
#以下句子替換除'-'以外的所有標點符號,因為'-'可能存在於單詞中。
txt = re.sub(r'[^\u4e00-\u94a5\w\d\-]',' ',txt)
#替換單個'-'
txt = re sub(r '-',' ',txt)
對於線路輸入:
對於line.split()中的word:
#如果不區分大小寫,則按小寫處理,下面壹句改為dic.setdefault(word.lower(),0)。
dic.setdefault(word,0)
dic[word] += 1
打印dic
if __name__ = '__main__ ':
get _ word _ frequency(' test . txt ')
有問題就繼續問。