字集
字集(character set)或稱字元集,是指整理出的文字表。傳統的字集如字典、數位的字集如Unicode等。
在文字資訊數位處理中,字集決定了可使用的文字範圍,以及異體字的整理。例如「內」與「内」都收錄於Unicode,所以兩者可以並存於同一文章。但「納」字只收錄了一個字,要明確表達某個寫法,就只能倚賴特定字型。
要對文字進行編碼之前,必須先確立字集。實際整理出文字體系內會用到哪些文字,進一步釐清文字之間的順序性、關聯性等特徵後,才能進行編碼。很多失敗的編碼方式,往往都出於最初的字集整理就有問題(如缺字、重複字)。
要注意的是,「字集」與「編碼」是不同層次的概念。字集是規定有哪些字、也包括編定碼位的編碼字集;編碼則是將字集轉換為實際傳輸、儲存用序列的方式。只是因為歷史因素,繁體中文的Big5既是個「字集」標準也是「編碼」標準,故讓這兩個概念有點混淆。
常見字集表
繁體中文
- 國字政策(傳統字集)
- 常用國字標準字體表 4,808字 (台灣)
- 次常用國字標準字體表 6,343字 (台灣)
- 國語一字多音審訂表 (台灣)
- 常用字字形表 (香港)
- 台客語漢字
- 資訊標準(數位字集)
- Big5 13,060字 (台灣)
- CNS11643 (台灣)
- HKSCS (香港)
- IICORE (香港?)
- 業界標準(數位字集)
- Adobe-CNS1
- 再會豆腐字
日文
- 國字政策 (文部省)
- 常用漢字表 2,136字
- 人名用漢字
- 学年別漢字配当表 (教育漢字) 1,026字
- 表外漢字字体表
- 資訊標準 (經產省)
- JIS X 0208
- 業界標準
簡體中文
- 文字政策
- 通用規範漢字表 8,105字
- 資訊標準
- GB2312
- GBK
- GB18030
- 建立於 2020 年 12 月 23 日 11 時 13 分
- 本條目共被 1 位不同作者編輯過 2 次
- 最後一次修改於 2022 年 3 月 16 日 12 時 49 分