UTF-8 ANSI GB2312GBK的区别1. ANSI 编码
本质:不是一个具体的编码标准,而是 Windows 系统对本地编码的统称
在中文系统中:通常指 GB2312 或 GBK
特点:使用 1-2 个字节表示字符,只支持有限的字符集(如中文、英文)
向后兼容 ASCII(英文和基本符号用 1 字节)
2. GB2312 编码
全称:《信息交换用汉字编码字符集 基本集》
制定时间:1980 年
特点:中国国家标准,专门用于简体中文,使用 1-2 个字节,包含约 6763 个常用汉字. 不支持繁体中文
3. GBK 编码
全称:《汉字内码扩展规范》
制定时间:1995 年
特点:GB2312 的扩展版本
完全兼容 GB2312(GB2312 的编码在 GBK 中完全相同)
支持简体中文和繁体中文,包含约 21003 个汉字,中文系统的默认编码
4. UTF-8 编码
本质:Unicode 的一种变长编码方式
特点:全球通用,支持几乎所有语言(中文、英文、日文、韩文等)
使用 1-4 个字节 表示不同字符:
英文:1 字节(兼容 ASCII)
中文:通常 3 字节
网页和互联网的主流编码
文件开头可能有 BOM(字节顺序标记)