Unicode Transformation Format 8-bit (UTF8)
UTF8 是 Unicode Transformation Format 8-bit (Unicode 转换格式 8 位) 的简写。
UTF8 能以可变长度表示 Unicode 字符集中的每个字符, 因此又称万国码。
UTF8 由 Ken Thompson 于 1992 年创建, 现已标准化为 RFC 3629。
UTF8 旨在与 ASCII 向后兼容, 并避免 UTF-16 和 UTF-32 中字节序和字节顺序标记的复杂性。
UTF8 编码中的第一个字节仍与 ASCII 相容, 使得原来处理 ASCII 字符的软件无须 (或只进行少部份) 修改, 便可继续使用。
UTF8 用 1 至 4 个字节编码 UNICODE 字符, 用在网页上, 可在同一页面显示中文简体 繁体及其它语言 (如英文 日文 韩文等)。
字节 FF 和 FE 在 UTF8 编码中永远不会出现, therefore, UTF8 是无字节顺序的。 UTF8 字节顺序在所有操作系统中都是一样的, 因此, UTF8 实际上并不需要 BOM。
See also:
Table of contents
Previous topic
Next topic
Quick search