Isinstance(s,str)用於判斷是否為壹般字符串。
Isinstance(s,unicode)用於判斷是否為unicode。
或者
if類型(字符串)。__name__!="unicode ":
str=unicode(str,“utf-8”)
否則:
及格
方法二:
Python chardet字符編碼判斷
Chardet可以用來方便地檢測字符串/文件的編碼。尤其是中文網頁,有的頁面使用GBK/GB2312,有的使用UTF8。如果需要爬壹些頁面,了解頁面編碼是非常重要的。雖然HTML頁面有charset標簽,但有時它們是錯誤的。那麽chardet可以幫我們大忙。?
Chardet實例
& gt& gt& gt導入urllib
& gt& gt& gtrawdata = urllib.urlopen('/')。閱讀()
& gt& gt& gt導入字符
& gt& gt& gtchardet.detect(原始數據)
{ '置信度':0.98999999999999999,'編碼':' GB2312'}
& gt& gt& gtChardet可以直接使用detect函數來檢測給定字符的編碼。函數的返回值是壹個字典,字典有兩個元素,壹個是檢測的可靠性,壹個是檢測到的代碼。?
Chardet安裝
下載chardet後,解壓chardet的壓縮包,直接把chardet文件夾放在應用目錄下,就可以使用import chardet開始使用chardet了。?
或者使用setup.py安裝文件將chardet復制到python系統目錄下,這樣所有Python程序都可以只使用import chardet。