字符编码的发展历程

xiaoxiao2021-02-28 149

字符编码的发展历程阶段1: 计算机只认识数字,我们在计算机中的一切数据都是以数字表示,因为英文符号有限所以规定使用的字节的最高位为0,每一个字节都是以0-127之间的数字来表示,比如A对应65,a对应97 这就是美国标准信息交换码,ASCII 阶段2: 随着计算机在全球的普及,很多国家和地区都把自己的字符引入到计算机,比如汉字此时发现一个字节能表示的数字范围太小,不能包含所有的中文汉字,那么久规定两个字节表示一个汉字规定:原有的ASCII字符的编码保持不变,仍然使用一个字节表示英文符号,为了区别一个中文字符与两个ASCII字符码中文字符的每个字节最高位规定为1(中文的二进制数是负数),这个规范就是GB2312编码后来在GB2312的基础上增加了更多的中文字符,比如汉字,也就出现了GBK 阶段3: 新的问题.在中国是认识汉字的,但是如果把汉字传递给其他的国家,该国家的码表中没有收录汉字,就会显示其他符号或乱码为了解决各个国家因为本地化字符编码带来的影响,所以就把全世界所有的字符统一编码,UniCode码出现了此时,某一个字符在全世界任何地方都是固定的,比如"哥",在任何地方都是以十六进制数54E5表示 UniCode的编码字符都占有两个字节 ---------------------------------------------------------------------------------------------------- 常见的字符集: ASCII码:占一个字节,只能包含128个符号,不能表示汉字 ISO-8859-1:(Latin-1);占一个字节,收录西欧语言,不能表示汉字 ANSI:占两个字节,在简体中文的操作系统中,ANSI就是指的是GB2312 GB2312/GBK/GB18030/ANSI:占两个字节 ,可以把这四种字符集看成一种字符集 UTF-8:是一种针对UniCode的可变长度字符编码,又称万国码,是UniCode的实现方式之一编码中的第一个字节仍与ASCII码兼容,这使得原来处理ASCII字符的软件无须或做少部分修改,即可继续使用因此,它逐渐成为电子邮件,网页及其其他存储或传送文字的应用中,优先使用的编码.互联网工程小组(IETF)要求所有的互联网协议都必须支持UTF-8编码 GBK字符集比UTF-8字符集的效率高.因为占用的字节小,但是它不支持万国语言.所以一般使用UTF-8字符集 UTF-8 BOM:是MS搞出来的编码,默认占3个字节,不建议使用这个 ---------------------------------------------------------------------------------------------------- 存储字母,数字和汉字存储字母和数字无论是什么字符集都占一个字节存储汉字:GBK家族占用两个字节,UTF-8家族占3个字节 ---------------------------------------------------------------------------------------------------- 不能使用单字节的字符集(ASCII/ISO-8859-1):存储中文

转载请注明原文地址: https://www.6miu.com/read-2624187.html

技术

最新回复(0)