起初,我使用GB2312處理所有數據。後來我通過口吃分詞看了文檔,說utf-8要用對,就寫了壹段代碼把文字改成utf-8。然後停用詞文件也用utf-8保存,但不是用代碼,使用Notpad。從那以後,我壹直無法停止使用文件中的文字。
後來,代碼中添加了幾個明顯的停用詞表。當分離的單詞不在列表中時,輸出這些單詞。結果,列表中的所有單詞都被成功停用。
建議樓主再調壹下代碼試試。
另外,我壹開始用的是Python2.7.10,因為停用詞沒反應。我發現壹個網頁說他用Python3.4就可以了,我就換成Python3.4.3了,但是沒用,就照我上面做的做。Python2.7還沒試過,估計問題也差不多。...
樓主加油!蟒程徐苑,加油!