UTF8 (Unicode Transformation Format 8-bit) Unicode 轉換格式 8 位


UTF8 是 Unicode Transformation Format 8-bit (Unicode 轉換格式 8 位) 的簡寫。

UTF8 能以可變長度錶示 Unicode 字符集中的每個字符, 因此又稱萬國碼。

無 BOM 標記


UTF8 由 Ken Thompson 於 1992 年創建, 現已標準化為 RFC 3629。

UTF8 旨在與 ASCII 嚮後兼容, 並避免 UTF-16 和 UTF-32 中字節序和字節順序標記的復雜性。

UTF8 編碼中的第一個字節仍與 ASCII 相容, 使得原來處理 ASCII 字符的軟件無須 (或隻進行少部份) 修改, 便可繼續使用。

UTF8 用 1 至 4 個字節編碼 UNICODE 字符, 用在網頁上, 可在同一頁麵顯示中文簡體 繁體及其它語言 (如英文 日文 韓文等)。

字節 FF 和 FE 在 UTF8 編碼中永遠不會齣現, 因此, UTF8 是無字節順序的。 UTF8 字節順序在所有操作係統中都是一樣的, 因此, UTF8 實際上並不需要 BOM。

另請參閱:

UTF-8 and Unicode

UTF-8, a transformation format of ISO 10646

內容錶

  1. 無 BOM 標記

上一話題

SHA 安全哈希算法

下一話題

ASCII 字符集

快速搜索