文章詳情頁(yè)

詳解Python中的編碼問題（encoding與decode、str與bytes）

瀏覽：7日期：2022-07-09 13:46:00

1 引言

在文件讀寫及字符操作時(shí)，我們經(jīng)常會(huì)出現(xiàn)下面這幾種錯(cuò)誤：

TypeError: write() argument must be str, not bytes AttributeError: ’URLError’ object has no attribute ’code’ UnicodeEncodeError: ’gbk’ codec can’t encode character ’xa0’ inposition 5747: illegal multibyte sequence

這些錯(cuò)誤一看就是編碼問題，本篇博文總結(jié)一下Python3文件讀寫及字符操作中的編碼。

2 編碼發(fā)展史

（1）ASCII編碼

眾所周知，計(jì)算機(jī)只能處理0和1，任何符號(hào)都轉(zhuǎn)換為0和1的序列才能處理。計(jì)算機(jī)中8個(gè)位（bit）作為一個(gè)字節(jié)，所以1個(gè)字節(jié)能產(chǎn)生2的8次方個(gè)0和1的不同組合，也就是說(shuō)1個(gè)字節(jié)做多能表示256種字符。ASCII編碼就是用1個(gè)字節(jié)來(lái)存儲(chǔ)字符，計(jì)算機(jī)最初是美國(guó)人發(fā)明的，他們的符號(hào)不多，所以還將8個(gè)0和1序列中的第一位固定為0，ASCII只能表示127個(gè)字符。

（2）GB2312編碼

美國(guó)佬的符號(hào)不多，所以ASCII編碼夠用，但是其他國(guó)家就不行了，每個(gè)國(guó)家符號(hào)數(shù)量都不一樣，就各自指定了自己的編碼。例如我們中國(guó)就制定了GB2312編碼。GB2312編碼用2個(gè)字節(jié)表示一個(gè)字符。

（3）Unicode編碼

每個(gè)國(guó)家都用自己的編碼，編碼一朵就容易亂套，也沒法交流，所以需要一種編碼把各個(gè)國(guó)家的編碼都囊括進(jìn)去，這就是Unicode編碼的由來(lái)。所以，Unicode也被稱為萬(wàn)國(guó)碼。Unicode編碼也用2個(gè)字節(jié)存儲(chǔ)一個(gè)字符。

（4）utf-8編碼

Unicode編碼解決了編碼不能通用的問題，但是卻容易浪費(fèi)內(nèi)存，尤其是在存儲(chǔ)英文的時(shí)候，例如一個(gè)字符“A”，ASCII編碼只需要1個(gè)字節(jié)就夠，但是Unicode編碼必須要用2個(gè)字節(jié)。為了解決這一問題，就有了utf-8編碼。 utf-8編碼把存儲(chǔ)英文依舊用一個(gè)字節(jié)，漢字就3個(gè)字節(jié)。特別是生僻的編程4-6字節(jié)，如果傳輸大量英文，utf-8作用就很明顯了。utf-8編碼進(jìn)行存儲(chǔ)時(shí)有極大地優(yōu)勢(shì)，但是當(dāng)讀取到計(jì)算機(jī)內(nèi)存時(shí)卻不大合適，因?yàn)閡tf-8編碼是變長(zhǎng)的，不方便尋址和索引，所以在計(jì)算機(jī)內(nèi)存中，還是轉(zhuǎn)化為Unicode編碼合適些。這就可以解釋為什么每次讀取文本時(shí)，要將編碼轉(zhuǎn)化為Unicode編碼，而將內(nèi)存中的字符寫入文件存儲(chǔ)時(shí)，要將編碼轉(zhuǎn)化為utf-8了。

3 str與bytes

在Python3中，文本總是為Unicode編碼，在類型上為str類，也就是說(shuō)Python編譯器只會(huì)把Unicode編碼下的二進(jìn)制流顯示為我們可識(shí)別的符號(hào)。二進(jìn)制流在Python中也有一個(gè)專門的類用于表示這種二進(jìn)制序列，那就是bytes（在Python中這個(gè)二進(jìn)制序列顯示為16進(jìn)制，但本質(zhì)還是二進(jìn)制）。一個(gè)str在不同的編碼下就可以轉(zhuǎn)化為不同的bytes（二進(jìn)制流），反之，要將bytes轉(zhuǎn)化為可識(shí)別的str就必須用對(duì)應(yīng)的編碼，否則就會(huì)報(bào)錯(cuò)。

用人類語(yǔ)言類比一下：我們要表達(dá)“吃飯”這件事物（str），翻譯為各個(gè)國(guó)家的文字后有各不相同的表示，中文表示為“吃飯”，英文表示為“eat”，這就是“吃飯”這個(gè)str在不同編碼寫的表示。但官方只認(rèn)中文（Pythonstr只認(rèn)Unicode編碼），所以就必須把“eat”用英語(yǔ)（編碼）的表示方式轉(zhuǎn)化為中文的“吃飯”（Unicode編碼），官方才會(huì)顯示知道是吃飯這件事。

>>> s = ’吃飯’>>> type(s)<class ’str’>>>> s1 = s.encode(encoding=’utf-8’)>>> type(s1)<class ’bytes’>>>> s1b’xe5x90x83xe9xa5xad’>>> s2 = s.encode(encoding=’gb2312’)>>> type(s2)<class ’bytes’> >>> s2b’xb3xd4xb7xb9’>>> s1.decode(’utf-8’)’吃飯’>>> s2.decode(’gb2312’)’吃飯’

詳解Python中的編碼問題（encoding與decode、str與bytes）

4 文件編碼

在python 3 中字符是以Unicode的形式存儲(chǔ)的，當(dāng)然這里所說(shuō)的存儲(chǔ)是指存儲(chǔ)在計(jì)算機(jī)內(nèi)存當(dāng)中，如果是存儲(chǔ)在硬盤里，Python 3的字符是以bytes形式存儲(chǔ)，也就是說(shuō)如果要將字符寫入硬盤，就必須對(duì)字符進(jìn)行encode。對(duì)上面這段話再解釋一下，如果要將str寫入文件，如果以‘w’模式寫入，則要求寫入的內(nèi)容必須是str類型；如果以‘wb’形式寫入，則要求寫入的內(nèi)容必須是bytes類型。文章開頭出現(xiàn)的幾種錯(cuò)誤，就是因?yàn)閷懭肽Ｊ脚c寫入內(nèi)容的數(shù)據(jù)類型不匹配造成的。

s1 = ’你好’#如果是以‘w’的方式寫入，寫入前一定要進(jìn)行encoding，否則會(huì)報(bào)錯(cuò) with open(’F:1.txt’,’w’,encoding=’utf-8’) as f1: f1.write(s1)s2 = s1.encode('utf-8')#轉(zhuǎn)換為bytes的形式#這時(shí)候?qū)懭敕绞揭欢ㄒ恰畐b’，且一定不能加encoding參數(shù)with open(’F:2.txt’,’wb’) as f2: f2.write(s2)

有的人會(huì)問，我在系統(tǒng)里面用文本編輯器打開以bytes形式寫入的2.txt文件，發(fā)現(xiàn)里面顯示的是‘你好’，而不是‘b’xe4xbdxa0xe5xa5xbd’’，因?yàn)槲谋疚臋n打開2.txt時(shí)，系統(tǒng)會(huì)用合適的編碼將其顯示為對(duì)應(yīng)的符號(hào)，然后才給你看到。

5 網(wǎng)頁(yè)編碼

網(wǎng)頁(yè)編碼和文件編碼方法差不多，如下urlopen下載下來(lái)的網(wǎng)頁(yè)read()且用decoding(‘utf-8’)解碼，那就必須以‘w’的方式寫入文件。如果只是read()而不用encoding(‘utf-8’)進(jìn)行編碼，一定要以‘wb’方式寫入：以‘w’方式寫入時(shí)：

response= url_open(’http://blog.csdn.net/gs_zhaoyang/article/details/13768925 ’ ,timeout=5 )#自定義的一個(gè)網(wǎng)頁(yè)下載函數(shù)#此處以UTF-8方式進(jìn)行解碼，解碼后的數(shù)據(jù)以u(píng)nicode的方式存儲(chǔ)在html中html = response.read().decode(’UTF-8’)print(type(html))#輸出結(jié)果：<class ’str’>#這時(shí)寫入方式一定要加encoding,以encoding# 即UTF-8的方式對(duì)二進(jìn)制數(shù)據(jù)進(jìn)行編碼才能寫入with open(’F:DownloadAppDatahtml.txt’,'w' , encoding=’UTF-8’) as f: f.write(html)

以‘wb’方式寫入：

response= url_open(’http://blog.csdn.net/gs_zhaoyang/article/details/13768925 ’ ,timeout=5 )html = response.read()#此處不需要進(jìn)行解碼，下載下來(lái)print(type(html))#輸出結(jié)果：<class ’bytes’>with open(’F:DownloadAppDatahtml.txt’,'wb' ) as f: f.write(html)

如果要在Python3中，對(duì)urlopen下載下來(lái)的網(wǎng)頁(yè)進(jìn)行字符操作（例如正則匹配、lxml提取），就必須decode成Unicode。

作者：奧辰

微信號(hào)：chb1137796095

Github：https://github.com/ChenHuabin321

歡迎加V交流，共同學(xué)習(xí)，共同進(jìn)步！

以上就是詳解Python中的編碼問題（encoding與decode、str與bytes）的詳細(xì)內(nèi)容，更多關(guān)于python 編碼的資料請(qǐng)關(guān)注好吧啦網(wǎng)其它相關(guān)文章！

Python 編程

上一條：python Matplotlib數(shù)據(jù)可視化（1）：簡(jiǎn)單入門下一條：python 生成器需注意的小問題

相關(guān)文章：

1. XML實(shí)體注入深入理解2. XML入門的常見問題(三)3. WMLScript腳本程序設(shè)計(jì)第1/9頁(yè)4. Xpath語(yǔ)法格式總結(jié)5. XML 非法字符（轉(zhuǎn)義字符）6. 前端html+css實(shí)現(xiàn)動(dòng)態(tài)生日快樂代碼7. CSS3實(shí)例分享之多重背景的實(shí)現(xiàn)(Multiple backgrounds)8. 不要在HTML中濫用div9. 利用CSS3新特性創(chuàng)建透明邊框三角10. CSS Hack大全-教你如何區(qū)分出IE6-IE10、FireFox、Chrome、Opera

排行榜

					
					Java基礎(chǔ)之Object類詳解
python GUI庫(kù)圖形界面開發(fā)之PyQt5滑塊條控件QSlider詳細(xì)使用方法與實(shí)例
利用CSS3新特性創(chuàng)建透明邊框三角
python使用ctypes庫(kù)調(diào)用DLL動(dòng)態(tài)鏈接庫(kù)
ASP.NET MVC實(shí)現(xiàn)橫向展示購(gòu)物車
PHP?redis?Sorted?Set實(shí)現(xiàn)字符串去重代碼示例
python GUI庫(kù)圖形界面開發(fā)之PyQt5信號(hào)與槽基礎(chǔ)使用方法與實(shí)例
python3 通過 pybind11 使用Eigen加速代碼的步驟詳解
python for循環(huán)內(nèi)輸出和外輸出方式
詳解python程序中的多任務(wù)
Python數(shù)據(jù)可視化圖實(shí)現(xiàn)過程詳解