當前位置:成語大全網 - 書法字典 - Python計算單詞的數量

Python計算單詞的數量

樓上的程序有很多問題,比如沒有處理好標點符號,錯誤的文件讀取方法等等。

樓主需要區分大小寫嗎?如果進行區分,將如下:

進口re

def get _ word _ frequencies(文件名):

dic = {}

txt = open(文件名,' r ')。閱讀()。分割線()

#以下句子替換除'-'以外的所有標點符號,因為'-'可能存在於單詞中。

txt = re.sub(r'[^\u4e00-\u94a5\w\d\-]',' ',txt)

#替換單個'-'

txt = re sub(r '-',' ',txt)

對於線路輸入:

對於line.split()中的word:

#如果不區分大小寫,則按小寫處理,下面壹句改為dic.setdefault(word.lower(),0)。

dic.setdefault(word,0)

dic[word] += 1

打印dic

if __name__ = '__main__ ':

get _ word _ frequency(' test . txt ')

有問題就繼續問。