字元編碼

字元編碼是為了在電腦上使用文字(字元;character),而定義每個字的位元組形式。或指位元組形式與文字體系的關係(字碼表)。

定義

字集編碼

傳統上,字集(character set)的概念與編碼時常被混淆,尤其是繁體中文使用者。因為Big5Unicode之類的規格,都同時是字集標準也定義了編碼方式。

如HTML、MIME也以 charset 來描述文件編碼,嚴格來說是種誤用(encoding 是比較準確的稱呼)。

現代編碼模型

UTR#17描述了一套4層的完整編碼模型,去說明如何將一種文字體系進行編碼

補充說明

類似用詞

  1. Big5當年抄的是CNS11643前身通用碼草案的字表順序,後來正式版的CNS11643已經修掉兩個重複漢字與調整某些字的順序了,所以嚴格來說Big5與CNS11643並無法完全映射性轉換。