字符编码的发展历程

xiaoxiao2021-02-28  149

字符编码的发展历程 阶段1: 计算机只认识数字,我们在计算机中的一切数据都是以数字表示,因为英文符号有限 所以规定使用的字节的最高位为0,每一个字节都是以0-127之间的数字来表示,比如A对应65,a对应97 这就是美国标准信息交换码,ASCII 阶段2: 随着计算机在全球的普及,很多国家和地区都把自己的字符引入到计算机,比如汉字 此时发现一个字节能表示的数字范围太小,不能包含所有的中文汉字,那么久规定两个字节表示一个汉字 规定:原有的ASCII字符的编码保持不变,仍然使用一个字节表示英文符号,为了区别一个中文字符与两个ASCII字符码 中文字符的每个字节最高位规定为1(中文的二进制数是负数),这个规范就是GB2312编码 后来在GB2312的基础上增加了更多的中文字符,比如汉字,也就出现了GBK 阶段3: 新的问题.在中国是认识汉字的,但是如果把汉字传递给其他的国家,该国家的码表中没有收录汉字,就会显示其他符号或乱码 为了解决各个国家因为本地化字符编码带来的影响,所以就把全世界所有的字符统一编码,UniCode码出现了 此时,某一个字符在全世界任何地方都是固定的,比如"哥",在任何地方都是以十六进制数54E5表示 UniCode的编码字符都占有两个字节 ---------------------------------------------------------------------------------------------------- 常见的字符集: ASCII码:占一个字节,只能包含128个符号,不能表示汉字 ISO-8859-1:(Latin-1);占一个字节,收录西欧语言,不能表示汉字 ANSI:占两个字节,在简体中文的操作系统中,ANSI就是指的是GB2312 GB2312/GBK/GB18030/ANSI:占两个字节      ,可以把这四种字符集看成一种字符集 UTF-8:是一种针对UniCode的可变长度字符编码,又称万国码,是UniCode的实现方式之一 编码中的第一个字节仍与ASCII码兼容,这使得原来处理ASCII字符的软件无须或做少部分修改,即可继续使用 因此,它逐渐成为电子邮件,网页及其其他存储或传送文字的应用中,优先使用的编码.互联网工程小组(IETF)要求所有的互联网 协议都必须支持UTF-8编码 GBK字符集比UTF-8字符集的效率高.因为占用的字节小,但是它不支持万国语言.所以一般使用UTF-8字符集 UTF-8 BOM:是MS搞出来的编码,默认占3个字节,不建议使用这个 ---------------------------------------------------------------------------------------------------- 存储字母,数字和汉字 存储字母和数字无论是什么字符集都占一个字节 存储汉字:GBK家族占用两个字节,UTF-8家族占3个字节 ---------------------------------------------------------------------------------------------------- 不能使用单字节的字符集(ASCII/ISO-8859-1):存储中文
转载请注明原文地址: https://www.6miu.com/read-2624187.html

最新回复(0)