字集

字集(character set)或稱字元集,是指整理出的文字表。傳統的字集如字典、數位的字集Unicode等。


在文字資訊數位處理中,字集決定了可使用的文字範圍,以及異體字的整理。例如「內」與「内」都收錄於Unicode,所以兩者可以並存於同一文章。但「納」字只收錄了一個字,要明確表達某個寫法,只能倚賴特定字型,或是用圖片的方式處理。

要注意的是,「字集」與「編碼」是不同的概念。字集是規定有哪些字,編碼是規定怎麼處理這些字。只是因為歷史因素,繁體中文的Big5既是個「字集」標準也是「編碼」標準,故讓這兩個概念有點混淆。

常見字集

繁體中文

日文

簡體中文