一篇關于STR和UNICODE的好文章
整理下python編碼相關的內容
注意: 以下討論為Python2.x版本, Py3k的待嘗試
開始
用python處理中文時,讀取文件或消息,http參數等等
一運行,發現亂碼(字符串處理,讀寫文件,print)
然后,大多數人的做法是,調用encode/decode進行調試,并沒有明確思考為何出現亂碼
所以調試時最常出現的錯誤
錯誤1
Traceback (most recent call last): File "
錯誤2
Traceback (most recent call last): File "
首先
必須有大體概念,了解下字符集,字符編碼
ASCII | Unicode | UTF-8 | 等等
字符編碼筆記:ASCII,Unicode和UTF-8
淘寶搜索技術博客-中文編碼雜談
str 和 unicode
str和unicode都是basestring的子類
所以有判斷是否是字符串的方法
def is_str(s):???? return isinstance(s, basestring)
str和unicode 轉換
decode 文檔
encode 文檔
str? -> decode(‘the_coding_of_str‘) -> unicode unicode -> encode(‘the_coding_you_want‘) -> str
區別
str是字節串,由unicode經過編碼(encode)后的字節組成的
聲明方式
s = ‘中文‘ s = u‘中文‘.encode(‘utf-8‘)? >>> type(‘中文‘)
求長度(返回字節數)
>>> u‘中文‘.encode(‘utf-8‘) ‘\xe4\xb8\xad\xe6\x96\x87‘ >>> len(u‘中文‘.encode(‘utf-8‘)) 6
unicode才是真正意義上的字符串,由字符組成
聲明方式
s = u‘中文‘ s = ‘中文‘.decode(‘utf-8‘) s = unicode(‘中文‘, ‘utf-8‘)? >>> type(u‘中文‘)
求長度(返回字符數),在邏輯中真正想要用的
>>> u‘中文‘ u‘\u4e2d\u6587‘ >>> len(u‘中文‘) 2
結論
搞明白要處理的是str還是unicode, 使用對的處理方法(str.decode/unicode.encode)
下面是判斷是否為unicode/str的方法
>>> isinstance(u‘中文‘, unicode) True >>> isinstance(‘中文‘, unicode) False? >>> isinstance(‘中文‘, str) True >>> isinstance(u‘中文‘, str) False
簡單原則:不要對str使用encode,不要對unicode使用decode (事實上可以對str進行encode的,具體見最后,為了保證簡單,不建議)
>>> ‘中文‘.encode(‘utf-8‘) Traceback (most recent call last): File "
不同編碼轉換,使用unicode作為中間編碼
#s是code_A的str s.decode(‘code_A‘).encode(‘code_B‘)
文件處理,IDE和控制臺
處理流程,可以這么使用,把python看做一個水池,一個入口,一個出口
入口處,全部轉成unicode, 池里全部使用unicode處理,出口處,再轉成目標編碼(當然,有例外,處理邏輯中要用到具體編碼的情況)
讀文件? 外部輸入編碼,decode轉成unicode? 處理(內部編碼,統一unicode)? encode轉成需要的目標編碼? 寫到目標輸出(文件或控制臺)
IDE和控制臺報錯,原因是print時,編碼和IDE自身編碼不一致導致
輸出時將編碼轉換成一致的就可以正常輸出
>>> print u‘中文‘.encode(‘gbk‘) ???? >>> print u‘中文‘.encode(‘utf-8‘) 中文
建議
規范編碼
統一編碼,防止由于某個環節產生的亂碼
環境編碼,IDE/文本編輯器, 文件編碼,數據庫數據表編碼
保證代碼源文件編碼
這個很重要
py文件默認編碼是ASCII, 在源代碼文件中,如果用到非ASCII字符,需要在文件頭部進行編碼聲明 文檔
不聲明的話,輸入非ASCII會遇到的錯誤,必須放在文件第一行或第二行
File "XXX.py", line 3 SyntaxError: Non-ASCII character ‘\xd6‘ in file c.py on line 3, but no encoding declared; see http://www.python.org/peps/pep-0263.html for details
聲明方法
# -*- coding: utf-8 -*- 或者 #coding=utf-8
若頭部聲明coding=utf-8, a = ‘中文‘ 其編碼為utf-8
若頭部聲明coding=gb2312, a = ‘中文‘ 其編碼為gbk
so, 同一項目中所有源文件頭部統一一個編碼,并且聲明的編碼要和源文件保存的編碼一致(編輯器相關)
在源代碼用作處理的硬編碼字符串,統一用unicode
將其類型和源文件本身的編碼隔離開, 獨立無依賴方便流程中各個位置處理
if s == u‘中文‘:? #而不是 s == ‘中文‘???? pass #注意這里 s到這里時,確保轉為unicode
以上幾步搞定后,你只需要關注兩個 unicode和 你設定的編碼(一般使用utf-8)
處理順序
1. Decode early 2. Unicode everywhere 3. Encode later
相關模塊及一些方法
獲得和設置系統默認編碼
>>> import sys >>> sys.getdefaultencoding() ‘ascii‘? >>> reload(sys)
str.encode(‘other_coding‘)
在python中,直接將某種編碼的str進行encode成另一種編碼str
#str_A為utf-8 str_A.encode(‘gbk‘)? 執行的操作是 str_A.decode(‘sys_codec‘).encode(‘gbk‘) 這里sys_codec即為上一步 sys.getdefaultencoding() 的編碼
‘獲得和設置系統默認編碼‘和這里的str.encode是相關的,但我一般很少這么用,主要是覺得復雜不可控,還是輸入明確decode,輸出明確encode來得簡單些(個人觀點)
chardet
文件編碼檢測,下載
>>> import chardet >>> f = open(‘test.txt‘,‘r‘) >>> result = chardet.detect(f.read()) >>> result {‘confidence‘: 0.99, ‘encoding‘: ‘utf-8‘}
\u字符串轉對應unicode字符串
>>> u‘中‘ u‘\u4e2d‘? >>> s = ‘\u4e2d‘ >>> print s.decode(‘unicode_escape‘) 中? >>> a = ‘\\u4fee\\u6539\\u8282\\u70b9\\u72b6\\u6001\\u6210\\u529f‘ >>> a.decode(‘unicode_escape‘) u‘\u4fee\u6539\u8282\u70b9\u72b6\u6001\u6210\u529f‘
?以上就是對Python 編碼處理的資料整理,后續繼續補充相關資料,謝謝大家對本站的支持!
更多文章、技術交流、商務合作、聯系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號聯系: 360901061
您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對您有幫助就好】元
