Unicode与UTF-8 - RIVALSA网络日志

计算机中的任何数据都是通过二进制来存储的，字符也不例外。要想用二进制数字来表示字符，我们就必须要建立一个规则，将字符与二进制数一一对应，这个对应关系就称为字符集。按照这个对应关系将字符转换为的二进制称为原字符的编码。

对于英文字符，通常采用ASCII字符集，用7个二进制位（占用1字节，最高位填充0b0）表示。例如空格的编码为32（二进制：0b100000，十六进制：0x20），数字5的编码为53（二进制：0b110101，十六进制：0x35），等号的编码为61（二进制：0b111101，十六进制：0x3D）等。但ASCII字符集中仅包含英文字母与部分英文符号，为了让其他语言文字也能在计算机中表示出来，就必须给它们也进行编码，由于ASCII已经占用了最高位为0b0的128个编码，所以要想只用1个字节来编码，其他语言字符就只剩最高位为0b1的128个编码可用了。但是由于各个语言都需要占用这128个编码，必然导致某个编码在不同的语言中表示的字符不同，也就会引起乱码的问题。

要想解决乱码的问题也很简单，只要让每一个字符所对应的编码都保持独一无二即可，这就是Unicode字符集。在Unicode字符集中，有些编码仅占用1个字节，有些编码占用2个字节，有些编码需要占用更多个字节。但这又带来了新的问题：由于Unicode编码所占用的字节数是不固定的，所以计算机并不知道该按照几个字节的内容来进行解码。比如：“卅”字用Unicode编码为0b101001101000101（十六进制：0x5345），占用了2个字节，但计算机在解码的时候并不知道应该解码为0x5345（中文“卅”）一个字符，还是应该解码成0x53（大写字母“S”）和0x45（大写字母“E”）两个字符。所以Unicode字符集虽然给所有的字符都对应了一个唯一的编码，但要实现起来还是存在一些问题的。

UTF-8就是Unicode编码的实现方式之一，是基于Unicode编码的一种编码。它按照如下规则进行编码（除去固定的二进制位外，所有的x组成的二进制数为对应字符的Unicode编码）。

UTF-8编码占用字节数	二进制编码	对应Unicode编码的位数
1字节	0b 0xxxxxxx	1位-7位
2字节	0b 110xxxxx 10xxxxxx	8位-11位
3字节	0b 1110xxxx 10xxxxxx 10xxxxxx	12位-16位
4字节	0b 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx	17位-21位
...	...	...

如果UTF-8编码为1个字节，则直接使用对应的Unicode编码（最高位为0b0），对于此字符，UTF-8编码、Unicode编码、ASCII码是相同的；如果UTF-8编码为n（n>1）个字节，则第1个字节的高n位全为0b1，第1个字节的第高（n+1）位为0b0，除了第一个字节外的所有字节的高2位都是0b10，前面没有提到的所有二进制位全部由此字符的Unicode编码组成。

例如：“卅”字的Unicode编码为0b101001101000101（十六进制:0x5345），是由15位二进制数组成的，根据上表，其UTF-8编码需要3个字节，对应的编码为0b1110xxxx10xxxxxx10xxxxxx。在编码中的所有x用对应的Unicode编码替换，位数不足的在高位补0b0，所以“卅”字的UTF-8编码即为0b111001011000110110000101（十六进制：0xE58D85）。

（正文完）

版权信息

本作品著作权归属 Rivalsa 所有，除非 Rivalsa 明确许可您使用，否则任何个人或组织不得以任何方式直接或间接的复制、伪造、转载、摘编、翻印、改编、演出或以其他方式使用本作品。

已获得3个赞0个差评

2条评论

SLiMan - 2020-08-20 14:51:26 举报回复

讲的很详细，不过后面关于UTF-8如何解决Unicode不确定占用字节数还是有些没看明白

Rivalsa 博主 - 2020-08-20 16:18:51 举报

其实很简单，“如果UTF-8编码为n（n>1）个字节，则第1个字节的高n位全为0b1”，也就是说只要看第一个字节的高位有多少个连续的1，这个编码就是由多少个字节组成的。
后续我会略微修改文章，把这部分描述的更清楚一点。

抱歉，发表评论功能暂时下线（取消回复）

近期评论

菊座：时间过得真快查看文章

林林：今年又要发新年贺词了嘛（1个回复）查看文章

匿名：必须给点赞。查看文章

Heresy：什么文件类型都可以加密吗？（1个回复）查看文章

匿名：又有新歌单发布啦！！！查看文章

wu先生：哈哈，电台网站居然还没上线就下线了？我有一个手台在... 查看文章

wu先生：我还没用过类似的软件呢。感觉用不上。（1个回复）查看文章

林林：何时能再更新一下生活类的网络日志。似乎微网志的发多...（1个回复）查看文章

Pampo：好像还不错，不过我没用过第三方的加密软件，我都是用... 查看文章

卡住叻：活捉生米一枚~（2个回复）查看文章

近期评论回复

Rivalsa 博主回复了林林：新春贺词已发布，请见 https://main.r... 查看文章

Rivalsa 博主回复了Heresy：Yes，任何类型的文件都可以加密，其实，感觉他的本... 查看文章

Rivalsa 博主回复了wu先生：我也是最近才知道这个软件的，其实只要细心很多地方都... 查看文章

Rivalsa 博主回复了林林：哈哈，您说的非常对，确实有了微网志之后，普通的网络... 查看文章

咔嚓回复了卡住叻：生米逃跑啦~~ 查看文章

卡不住回复了卡住叻：卡在哪了？哈哈~ 查看文章

十年之约

自2020年8月30日起，博客十年不关闭，保持更新和活力。

十年之约-虫洞：