import numpy as np
import pandas as pd
import re
df=pd。
#coding;cidnum'.keyword = df,';)
發現結果把所有的非數字及字母全部替換掉了;;keyword')
df;/, '.str,';'[^a-zA-Z0-9_\]
#將雙引號過濾掉
#將NA的替換掉g
df=df.keyword = df;;path'
df,'name'home/.keyword, '.replace(r;0'file_20150625'.fillna(')
r=u',header=None;cid'.str.lower()
i = 0
df, sep='.keyword,字母意外的所有特殊符號,數字;;u9fa5]'u4e00-\t'想過濾掉除文字。原因是什麽啊.read_csv('.columns=[',具體解決方案如下:
解決方案1:
改成r="\W"試試
解決方案2:
=u'u4e00-\[^a-zA-Z0-9_\u9fa5]'
解決方案3:
妳自己先要確定“亂碼”的定義,例如韓文(unicode),如果妳裝了韓文字體,那是可以顯示的,不是亂碼,但沒裝的話就是問號壹堆,如果是韓文
(euc-kr),在漢字系統那只是壹堆無語義的漢字……可能這個舉例扯遠了,妳覺得不會有這種情況,但我只是提醒壹下會有意料之外的情況
所以,妳需要壹個白名單,把妳允許的字符unicode範圍都列出來,因為肯定不止漢字,像妳列出的文件名中就有空格
另外,沒必要逐個字符檢查,直接用re.sub去除白名單外的字符就可以了