python輸出到文件亂碼如何解決

python代碼文件的編碼

py文件默認是ASCII編碼，中文在顯示時會做壹個ASCII到系統默認編碼的轉換，這時就會出錯：SyntaxError: Non-ASCII character。需要在代碼文件的第壹行或第二行添加編碼指示：

1 # coding=utf-8 ##以utf-8編碼儲存中文字符

2 print '中文'

像上面那樣直接輸入的字符串是按照代碼文件的編碼來處理的，如果用unicode編碼，有以下三種方式：

1 s1 = u'中文' #u表示用unicode編碼方式儲存信息

2 s2 = unicode('中文','gbk')

unicode是壹個內置函數，第二個參數指示源字符串的編碼格式。

decode是任何字符串具有的方法，將字符串轉換成unicode格式，參數指示源字符串的編碼格式。

encode也是任何字符串具有的方法，將字符串轉換成參數指定的格式。

（2）、字符串的編碼

用 u'漢字' 構造出來的是unicode類型，不用的話構造出來是str類型

str的編碼是與系統環境相關的，壹般就是sys.getfilesystemencoding()得到的值

所以從unicode轉str，要用encode方法

從str轉unicode，所以要用decode

例如：

# coding=utf-8 #默認編碼格式為utf-8

s = u'中文' #unicode編碼的文字

print s.encode('utf-8') #轉換成utf-8格式輸出

但當python中間處理非ASCII編碼時，經常會出現如下錯誤：

UnicodeDecodeError: 'ascii' codec can't decode byte 0x? in position 1: ordinal not in range(128)

0x?是超出128的數字，python在默認的情況下認為語言的編碼是ascii編碼，所以無法處理其他編碼，需要設置python的默認編碼為所需要的編碼。

壹個解決的方案是在代碼中添加：

import sys

reload(sys)

sys.setdefaultencoding('utf-8') （其中utf-8為妳想輸出的字符編碼）

解釋：

sys.setdefaultencoding方法在python導入site.py後就刪除了(具體代碼查看site.py就可以看到)因此如果想用的話可以再重新load進入

總結：

u=u'unicode編碼文字'

g=u.encode('gbk') #轉換為gbk格式

print g #此時為亂碼，因為當前環境為utf-8,gbk編碼文字為亂碼

str=g.decode('gbk').encode('utf-8') #以gbk編碼格式讀取g（因為他就是gbk編碼的,需要事先知道它是GBK編碼）並轉換為utf-8格式輸出

print str #正常顯示中文（同文件輸出）

安全的方法：

s.decode('gbk','ignore').encode('utf-8′) #以gbk編碼讀取（當然是讀取gbk編碼格式的文字了）並忽略錯誤的編碼，轉換成utf-8編碼輸出。

推薦學習《Python教程》！