python在安装时,默认的编码是ascii,当程序中出现非ascii编码时,python的处理常常会报这样的错UnicodeDecodeError: 'ascii' codec can't decode byte 0x?? in position 1: ordinal not in range(128),python没办法处理非ascii编码的,此时需要自己设置将python的默认编码,一般设置为utf8的编码格式。
查询系统默认编码可以在解释器中输入以下命令:
import syssys.getdefaultencoding()
设置默认编码时使用:
sys.setdefaultencoding('utf8')
可能会报AttributeError: 'module' object has no attribute 'setdefaultencoding'的错误,执行reload(sys),在执行以上命令就可以顺利通过。
此时在执行sys.getdefaultencoding()就会发现编码已经被设置为utf8的了,但是在解释器里修改的编码只能保证当次有效,在重启解释器后,会发现,编码又被重置为默认的ascii了,那么有没有办法一次性修改程序或系统的默认编码呢。
有2种方法设置python的默认编码:
一个解决的方案在程序中加入以下代码:
import sysreload(sys)sys.setdefaultencoding('utf8')
另一个方案是在python的Lib\site-packages文件夹下新建一个sitecustomize.py,内容为:
# encoding=utf8import sysreload(sys)sys.setdefaultencoding('utf8')
此时重启python解释器,执行sys.getdefaultencoding(),发现编码已经被设置为utf8的了,多次重启之后,效果相同,这是因为系统在python启动的时候,自行调用该文件,设置系统的默认编码,而不需要每次都手动的加上解决代码,属于一劳永逸的解决方法。
另外有一种解决方案是在程序中所有涉及到编码的地方,强制编码为utf8,即添加代码encode("utf8"),这种方法并不推荐使用,因为一旦少写一个地方,将会导致大量的错误报告,想自己把它调正确基本很难,尤其是当程序比较大的时候。
还有一点,就是在读取文本文件过程中,如果文本文件编码格式是ASNI的(就是windows默认的,用记事本打开文本文件,另存为->会发现编码格式),那没有什么问题,因为python的文件操作也是按照ASNI来的,ASNI也就是gbk格式,其实是一回事。如果你的文本文件是UTF-8编码的话,一定要显示的decode一下,如:
for line in open(fname,'r').readlines(): line=line.strip().decode('utf-8')
这样才可以,本人亲身体会。
为什么这个比较重要,因为现在写python代码一般会把系统默认格式设置为utf-8,这样的话当你需要将处理好的数据写入一个文本文档时,是没有任何问题的(windows记事本可以打开utf-8编码的文本)。写入的格式是utf-8。而如果需要读取一个utf-8文本(假设是以前通过本程序写入的),不显式的decode的话会出问题,因为你整个程序的工作环境都是utf-8的,而读取输入的却是gbk的,可以想象肯定达不到你的要求。必须显式地decode才可以,以上讲的怎样设置系统默认编码对这个读取是无效的。
总结:
python设置系统默认编码很重要,尤其是写python GUI的时候,我用python的tkinter写了个词典DictForGeeks,其中涉及到了很多中文编码问题,后来找到了正确的方法才解决。说明一个一个的强制编码很不可取,以及读取过程中显式decode的重要性。
注意:这里的编码是指python在处理时使用的编码,而不是通常说的在脚本开始处添加 #-*- coding: utf-8 -*-。