亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

如何為python中的字符串設置編碼

發布時間:2020-12-04 15:08:22 來源:億速云 閱讀:565 作者:Leah 欄目:開發技術

本篇文章給大家分享的是有關如何為python中的字符串設置編碼,小編覺得挺實用的,因此分享給大家學習,希望大家閱讀完這篇文章后可以有所收獲,話不多說,跟著小編一起來看看吧。

1. 常用的編碼

  • ASCII:只能表示一些字母,數字和特殊的字符,占一個字節
  • GBK:國家簡體中文字符集和繁體字符集,兼容ASCII,占兩個字節
  • Unicode:能夠表示全世界上所有的字符,Unicode有人說占4個字節也有人說占2個字節,但中文占2個字節
  • UTF-8:Unicode的壓縮版,占1~3個字節,其中中文占三個字節
       2.補充:計算機表示的單位:

bit: 位,計算機最小的表示單位

bytes:字節,最小的存儲單位,1bytes=8bit,1bytes簡寫成1B

1KB = 1024B

1MB = 1024KB

1GB = 1024MB

1TB = 1024GB

......

3.ASCII編碼

ASCII編碼是基于拉丁字母一套編碼,主要是顯示現代英語和其西歐語言,是最早通用的單字節編碼系統,具體ASCII對照表如下:

如何為python中的字符串設置編碼

在對照表中需要記住的是大寫字母A的編碼是65,小寫字母a的編碼的97即可。

在python中可以使用chr和ord方法進行轉換:

# 將數字類型轉換成ASCII對應的字符
print(chr(97)) # a
# 將數字轉換成對應的數據
print(ord("A")) # 65
# 或者使用

但隨著事件的發展,ASCII編碼擴展到了256個字符,編碼 對照表如下:

如何為python中的字符串設置編碼

其中后128個字符稱為擴展ASCII碼

2.GBK和GB2312編碼

由于ASCII編碼只能由256個字符組成,然只能由1個字節來表示中文是不可能的,因此制定了GB2312編碼,用來表示中文的對照表

4.Unicode

為了解決各個國家編碼沖突的問題,Unicode編碼就因此而生,Unicode把所有語言都統一到一套編碼里面,就會避免沖突,產生亂碼。

Unicodeb標準在不斷發展,最常用的是用兩個字節表示一個字符,也有的字符是4個字節,但是中文是占兩個字節。如果統一成Unicode編碼,在存儲和傳輸上就不劃算

5.UTF-8編碼

為了解決Unicode編碼存儲過大的問題,就推出了可變長編碼UTF-8,UTF-8編碼把一個Unicode字符依據不同的數據大小編程1~6個字節,其中中文就占3個字節

6.編碼和解碼

1.編碼操作

可以通過encode進行編碼,其中語法如下:

對字符串進行ASCII編碼(只能轉換數字,英文字母和一些符號)

# 方式1: 通過bytes方法
bytes('a', 'ASCII')
# 方式2: 通過encode方法進行
'a'.encode('ASCII') 

將字符串轉換成gbk編碼格式

# 方式1: 通過encode方法進行
print('你好'.encode('GBK')) # 編碼之后的結果為:b'\xc4\xe3\xba\xc3'
# 方式2: 通過bytes類型
print(bytes('我愛你', 'GBK')) # 編碼之后的結果為:b'\xce\xd2\xb0\xae\xc4\xe3'

將字符串轉換成Unicode編碼格式

# 方式1: 通過encode方法進行
print('你好'.encode('unicode_escape')) # 編碼之后的結果為:b'\\u4f60\\u597d'
# 方式2: 通過bytes類型
print(bytes('我愛你', 'unicode_escape')) # 編碼之后的結果為:b'\\u6211\\u7231\\u4f60'

將字符串轉換成UTF-8編碼格式

# 方式1: 通過encode方法進行
print('你好'.encode('utf-8')) # 編碼之后的結果為:b'\xe4\xbd\xa0\xe5\xa5\xbd'
# 方式2: 通過bytes類型
print(bytes('我愛你', 'utf-8')) # 編碼之后的結果為:b'\xe6\x88\x91\xe7\x88\xb1\xe4\xbd\xa0'

2.解碼操作

將GBK編碼格式轉換成字符串

# 通過decode方法解碼
print(b'\xc4\xe3\xba\xc3\xce\xd2\xb0\xae\xc4\xe3'.decode('GBK')) # 解碼之后結果為:你好我愛你

將UTF-8編碼格式轉換成字符串

# 通過decode方法解碼
print(b'\xe4\xbd\xa0\xe5\xa5\xbd\xe6\x88\x91\xe7\x88\xb1\xe4\xbd\xa0'.decode('utf-8')) # 解碼之后結果為:你好我愛你

將Uniconde編碼格式轉換成字符串

# 通過decode方法解碼
print(b'\\u4f60\\u597d\\u6211\\u7231\\u4f60'.decode('GBK')) # 解碼之后結果為:你好我愛你

以上就是如何為python中的字符串設置編碼,小編相信有部分知識點可能是我們日常工作會見到或用到的。希望你能通過這篇文章學到更多知識。更多詳情敬請關注億速云行業資訊頻道。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

晋州市| 类乌齐县| 常宁市| 崇信县| 股票| 仙桃市| 巴彦淖尔市| 淮北市| 锡林郭勒盟| 西吉县| 乌兰察布市| 宁国市| 江陵县| 苗栗县| 始兴县| 高安市| 井陉县| 广德县| 瑞金市| 莱芜市| 临澧县| 尼勒克县| 大化| 黄龙县| 枝江市| 三河市| 昂仁县| 团风县| 通河县| 闵行区| 景洪市| 东乡县| 澎湖县| 凤台县| 岐山县| 获嘉县| 土默特左旗| 息烽县| 宝应县| 崇阳县| 类乌齐县|