UTF8 (Unicode Transformation Format 8-bit) Unicode 转换格式 8 位


UTF8 是 Unicode Transformation Format 8-bit (Unicode 转换格式 8 位) 的简写。

UTF8 能以可变长度表示 Unicode 字符集中的每个字符, 因此又称万国码。

无 BOM 标记


UTF8 由 Ken Thompson 于 1992 年创建, 现已标准化为 RFC 3629。

UTF8 旨在与 ASCII 向后兼容, 并避免 UTF-16 和 UTF-32 中字节序和字节顺序标记的复杂性。

UTF8 编码中的第一个字节仍与 ASCII 相容, 使得原来处理 ASCII 字符的软件无须 (或只进行少部份) 修改, 便可继续使用。

UTF8 用 1 至 4 个字节编码 UNICODE 字符, 用在网页上, 可在同一页面显示中文简体 繁体及其它语言 (如英文 日文 韩文等)。

字节 FF 和 FE 在 UTF8 编码中永远不会出现, 因此, UTF8 是无字节顺序的。 UTF8 字节顺序在所有操作系统中都是一样的, 因此, UTF8 实际上并不需要 BOM。

 

另请参阅:

UTF-8 and Unicode

UTF-8, a transformation format of ISO 10646