python pandas 過濾某列特殊字符求助

漢字也被替換掉了:utf-8

import numpy as np

import pandas as pd

import re

df=pd。

#coding;cidnum'.keyword = df,';)

發現結果把所有的非數字及字母全部替換掉了;;keyword')

df;/, '.str,';'[^a-zA-Z0-9_\]

#將雙引號過濾掉

#將NA的替換掉g

df=df.keyword = df;;path'

df,'name'home/.keyword, '.replace(r;0'file_20150625'.fillna(')

r=u',header=None;cid'.str.lower()

i = 0

df, sep='.keyword，字母意外的所有特殊符號，數字;;u9fa5]'u4e00-\t'想過濾掉除文字。原因是什麽啊.read_csv('.columns=['，具體解決方案如下：

解決方案1：

改成r="\W"試試

解決方案2：

=u'u4e00-\[^a-zA-Z0-9_\u9fa5]'

解決方案3：

妳自己先要確定“亂碼”的定義，例如韓文(unicode)，如果妳裝了韓文字體，那是可以顯示的，不是亂碼，但沒裝的話就是問號壹堆，如果是韓文

(euc-kr)，在漢字系統那只是壹堆無語義的漢字……可能這個舉例扯遠了，妳覺得不會有這種情況，但我只是提醒壹下會有意料之外的情況

所以，妳需要壹個白名單，把妳允許的字符unicode範圍都列出來，因為肯定不止漢字，像妳列出的文件名中就有空格

另外，沒必要逐個字符檢查，直接用re.sub去除白名單外的字符就可以了