1000字范文 > 我所了解的GB2312 Unicode GBK UTF-8 BIG5等编码

我所了解的GB2312 Unicode GBK UTF-8 BIG5等编码

时间：2023-11-05 06:55:47

文章目录

1. GB23122. GBK3. Unicode4. UTF-85. BIG5

小编一直对文字编码感到模糊，在学习、编程等过程中也经常会遇到与之相关的问题，无奈只能问百度。于是，为解决这一问题，小编花了一些时日了解和学习这些编码，整理出了这些编码的“性格特点”，“兴趣爱好”等等（文章中可能不全面，接受建议）。

有关文章参见：趣谈unicode，ansi，utf-8，unicode big endian这些编码有什么区别。

在这之前，我得先提一下ASCII码（American Standard Code for Information Interchange，美国信息交换标准代码）是基于拉丁字母的一套电脑编码系统，主要用于显示现代英语和其他西欧语言。它是现今最通用的单字节编码系统，并等同于国际标准ISO/IEC 646（ISO是国际字符集编码标准）。

在早期，人们用 8 位二进制来编码英文字母(最前面的一位是 0)，也就是说，将英文字母和一些常用的字符和这 128 中二进制 0、1 串一一对应起来，比如说大写字母“A”所对应的二进制位“01000001”，转换为十六进制为 41。在美国，这 128 是够了，但其他国家也需要计算机，也需要编码表示自己国家的文字，于是在此基础上或是重新编码生出了很多的编码版本，本文只介绍与汉字有关的编码。

了解了ASCII码以后，我们就可以容易的了解以下内容，其实其他一系列编码一般离不开它。下面开始进入正题，介绍他们各自特点。

1. GB2312

“GB"是汉语拼英"guobiao”/"国标"的缩写，中国汉字编码标准,是一种不等长编码。GB系列从发展历程来看有很多，有GB7859，GB13000等等有简体中文也有繁体汉字，不细说，数GB2312最为基本和常用，它是对ASCII的中文扩展。约6763个简体汉字。

2. GBK

GBK是GB2312向GB13000过渡的一个中间产物，向下兼容GB2312的EUC编码，字汇（字符集）和GB13000相同，是GB2312的3倍，即包含GB2312的同时，又增加了近20000个新的汉字（简体、繁体），同时还包含BIG5（后面有说明）、Shift-JIS、KSC的字汇。在具体应用中，可以同时显示以上文字，但是除了GB2312，其他的需要进行转换。

顺便提一下，也许我们会经常看见ANSI码，其实就是GBK（在简体中文Windows系统中代表GBK，在繁体中文Windows系统中代表BIG5、在日文Windows系统中代表Shift-JIS）。

3. Unicode

为了统一世界上的所有文字而产生的多字节等长编码， Unicode为世界上的所有文字分配了一个唯一的数字符号，范围：0x000000-0x10FFFF(十六进制)，有110多万，每个字符都有一个唯一的 Unicode 编号，这个编号一般写成 16 进制，在前面加上 U+。例如：“马”的 Unicode 是U+9A6C。

缺点：在制定时没有考虑，与任何一种现有的编码兼容（当然这是很难做到的，那时每个国家已经派生出许多版本），使得GBK与Unicode在汉字的内码编排上完全不一样，没有一种简单的算法可以把文本内容从Unicode和另一种编码进行交换，这种转换必须通过查表进行。

4. UTF-8

UTF-8的全称：Unicode Transformation Format。来源于Unicode，因为Unicode只是规定如何编码，那么就需要一种保存文字的格式协议，即UTF。

UTF-8使用变长字节表示,顾名思义，就是使用的字节数可变，这个变化是根据 Unicode 编号的大小有关，编号小的使用的字节就少，编号大的使用的字节就多。使用的字节个数从 1 到 4 个不等。其中英文字母用一个字节表示，汉字用3个字节表示。

下面是UTF-8编码的范围和对应的格式：

例如：

“杨”字的Unicode码是6768，6768在范围0x800-0xFFFF(2048-65535)内，所以用对应的编码格式：1110XXXX 10XXXXXX 10XXXXXX，把6768化为二进制表示为：0001101001110000，然后依次替换模板中的X，得：11100001 10101001 10110000，化为十六进制为：E1A9B0–>即“杨”字的UTF-8码。也就是“杨”字的Unicode码为\u6768，而UTF-8码为E1A9B0。

注意：

UTF包含全世界所有国家需要用到的字符（因为来自Unicode）UTF的中文所占用字节比GBK占用字节多（UTF占3个，GBK占2个），所以如果中文出现比例高的文本，一般用GBK，而不是UTF-8，如中文操作系统，简体用的是GBK，繁体是BIG5。UTF是针对Unicode编码的，如果GBK与UTF互转，需要用Unicode做中介。Unicode、GB、BIG5等是对文字的编码规则，而UTF是对Unicode的存储（传输）规则，不是对文字的编码规则。并列、包含和兼容关系：

BIG5、GB、Unicode是并列关系；

GBK包括了GB2312的字集，编码也相同；（兼容）

GBK包含BIG5的字集，但编码不一样；（包含）

Unicode为世界650种语言进行统一编码，兼容ISO-8859-1