字集

字集(character set)或稱字元集,是指整理出的文字表。傳統的字集如字典、數位的字集如Unicode等。


在文字資訊數位處理中,字集決定了可使用的文字範圍,以及異體字的整理。例如「內」與「内」都收錄於Unicode,所以兩者可以並存於同一文章。但「納」字只收錄了一個字,要明確表達某個寫法,就只能倚賴特定字型。

要對文字進行編碼之前,必須先確立字集。實際整理出文字體系內會用到哪些文字,進一步釐清文字之間的順序性、關聯性等特徵後,才能進行編碼。很多失敗的編碼方式,往往都出於最初的字集整理就有問題(如缺字、重複字)。

要注意的是,「字集」與「編碼」是不同層次的概念。字集是規定有哪些字、也包括編定碼位的編碼字集編碼則是將字集轉換為實際傳輸、儲存用序列的方式。只是因為歷史因素,繁體中文的Big5既是個「字集」標準也是「編碼」標準,故讓這兩個概念有點混淆。

常見字集表

繁體中文

日文

簡體中文