# -*- coding: utf-8 -*- #字符编码 #字符编码用到的前两个知识点 ''' 储备知识点: 1.计算机系统分为三层: 应用程序 操作系统 计算机硬件:CPU、内存、硬盘 2.运行python程序的三个步骤 (1)先启动python解释器 (2)再将python文件当作普通的文本读入内容 (3)解释执行读入内存的代码,开始识别语法 ''' ''' 什么是字符编码 1Bytes字节 = 8bit二进制位 ASCII:只能识别英文字符 1个英文字符1个Bytes字节 e.g. len(b'ABC') = 3 len(b'A') = 1 GBK:能识别汉字与英文 1汉字=2Bytes=16bit, 1英文字符=1Bytes=8bit Shift-JIS 日本字符 ks_c_5601-1987 韩国编码 TIS-620 泰国编码 unicode:能够识别万国字符 1字符(英文)= 2Bytes = 16bit 相比较ASCII python只占1*6个字节,而unicode需要12个字节 两大特点: 能够兼容万国字符 与各个国家的字符编码都有映射关系 utf-8:是unicode的转换格式 全称:unicode transformation format 1英文字符 = 1Bytes字节 1汉字 = 3Bytes ''' ''' 重点理论: 编码与解码: 字符通过编码变成 unicode的二进制 再通过编码变成GBK的二进制 GBK的二进制 就可以通过解码 变成unicode的二进制 再通过解码 变成人类看的懂的字符 解决乱码的核心法则: 字符用什么编码格式编码的,就应该用什么编码格式进行解码 python2:ASCII python3:UTF-8 通过文件头可以修改python解释器默认使用的字符编码 在文件首行写:#coding:文件当初存的时候用的字符编码 针对python2解释器中定义字符串应该: x=u"上" 对于python3解释即便是x="上"不加u前缀也是存成unicode 在python3中 x='上' # '上'存成了uncidoe unicode--------encode----------->gbk res=x.encode('gbk') #res是gbk格式的二进制,称之为bytes类型 字符---编码-->unicode的二进制-------编码----->GBK的二进制 gbk(bytes类型)-------decode---------->unicode y=res.decode('gbk') #y就是unicode BK的二进制-----解码-->unicode的二进制----解码->字符 ''' # 关于编码的核心操作: ''' 1.编写python文件,首行应该加文件头: #coding:文件存时用的编码 2.用python2写程序,定义字符串应该加前缀u,如 x = u'上' 3.python3中的字符串都是unicode编码的,python3的字符串encode之后可以得到bytes类型 ''' ''' 为何字符要编码 人类与计算机打交道用的都是人类的字符,而计算机无法识别人类的字符,只能识别 二进制,所以必须将人类的字符编码成计算机能识别的二进制数字. '''