中日韓越統壹表意文字的字源

最初期統壹漢字

最初期的統壹漢字（20,902字）字源來自以下字集： G0：GB 2312-80：6,763字

G1：GB 12345-90：2,352字（含58個香港字和2個吏讀字，不包括和G0重覆的字）

G3：GB 7589-87：7,237字

G5：GB 7590-87：7,039字

G7：現代漢語通用字表：642（G0, 1, 3, 5, 8未包括的字）

G8：GB 8565-89：290字（G0, 1, 3, 5未包括的字） T1：CNS 11643-1986第壹字面：5,401+9字（含9個計量用漢字）

T2：CNS 11643-1986第二字面：7,650字

TE：CNS 11643-1986第十四字面：6,319+239+10（含239個CCCII特字和10個XCCS特字） J1：JIS X 0208-90：6,335+1字

J2：JIS X 0212-90：5,801字 K0：KS C 5601-87：4,888字（含268個重見字）

K1：KS C 5657-91：2,856字

以上的來源字集會實施字源分離原則。

另外還有：ANSI Z39.64-1989（EACC）、Big5、CCCII第壹面、GB 12052-89、JEF、中國大陸電報碼、臺灣電報碼、Xerox Chinese。這些來源字集不會實施字源分離原則。

很多人以為20,902統壹漢字中來自臺灣的只是Big5的壹萬三千多字，其實不然. 這6千多個漢字分別從以下字典或字集中取得：中國大陸《康熙字典》5357字(獨有1892字)

《漢語大字典》5888字(獨有339字)

G3：GB 7589-87 繁體字：2391字

G5：GB 7590-87 繁體字：1226字

G7：120字 GS：新加坡漢字226字臺灣 T3：CNS 11643-1992 第三字面（原本為CNS 11643-1986第十四字面）新加入字元

T4：CNS 11643-1992 第四字面

T5：CNS 11643-1992 第五字面

T6：CNS 11643-1992 第六字面

T7：CNS 11643-1992 第七字面

TF：CNS 11643-1992 第十五字面

日本 JA： Unified Japanese IT Vendors Contemporary Ideographs, 1993

南韓 K2：PKS C 5700-1:1994 K3：PKS C 5700-2:1994

越南 V0：TCVN 5773:1993 V1：TCVN 6056:1995

擴展B區包含有42,711個新的漢字，位置在 U+20000—U+2A6D6。根據ISO/IEC JTC1/SC2/WG2/IRG N777號文件，這四萬多個漢字分別從以下字典或字集中取得：

CNS 11643的第4平面到第15平面所收錄的30,177個漢字；

在《漢語大字典》中出現的28,914個未收錄漢字；

在《康熙字典》中出現的18,486個未收錄漢字（包括壹個在補遺篇出現漢字）；

在北朝鮮的國家標準所收錄的5,642個漢字；

在越南的國家標準所收錄的4,232個字喃；

HKSCS中出現的1,081個未收錄漢字；

《漢語大詞典》中出現的553個未收錄漢字；

《四庫全書》中出現的522個未收錄漢字；

日本工業標準的JIS X 0213第3平面及第4平面的302個未收錄漢字；

1980年代版本的《辭海》中出現的247個未收錄漢字；

大韓民國PKS 5700-3:1998中出現的166個未收錄漢字；

《中國大百科全書》中出現的86個未收錄漢字；

《辭源》中出現的66個未收錄漢字；

北大方正排版系統中出現的65個未收錄漢字；

這堆漢字中重復的漢字有不少，所以經過整理之後，總數實際上只有42,711個漢字。

另外，在 U+2F800—U+2FA1D 的位置，放了542個來自臺灣的兼容漢字。為使 Unicode 向下兼容 GB 18030 和香港增補字符集（HKSCS）的所有漢字，而擴展C區又遲遲未能出籠，在 Unicode 4.1 版中引進了14個香港增補字符集的用字和8個 GB 18030 用字。該22字被編於 U+9FA6—U+9FBB 的位置。

另外，在 U+FA70—U+FAD9 的位置，放了106個來自北朝鮮的兼容漢字。

擴展C區按計劃，中日韓統壹表意文字擴展C區將收錄4,251個漢字，包括來自中國大陸、澳門、臺灣、日本、越南等尚未被編碼的漢字。這些漢字預計會收錄在下壹版的 Unicode 版本中，位置在 U+2A6E0—U+2B77A。字源分離原則

字源分離原則字源分離原則（Source Separation Rule）是整理中日韓統壹表意文字的基礎。

由於CJK各地字型多有微妙的差異，如“戶”字的第壹筆，臺灣作撇、中國大陸作點、日本作橫，這種程度的差異，理想上是整並為壹個字為佳。然而，從之前各種受挫之文字整並計劃的經驗得知，整合字集與現行通用字集（Big5或國標碼）等無法壹壹對應，是推行整合字集的最大阻礙。

例如，日本的JIS標準同時收錄了“剣”字與“劍”字，原本JIS文件裏這兩個字可以並存，但采用整合字集後反而變成同壹個字，會造成使用上的困擾。於是，字源分離原則因而誕生。

字源分離原則是指，在上述所列出之各種字源裏，若有任何字集同時收了兩種以上的文字字形，則在Unicode中日韓統壹表意文字中，也同時收錄這些字。這樣壹來，現行的各種原有字集與Unicode漢字可以壹壹對應。

由於Unicode中日韓統壹表意文字的主要訴求，就是能大幅減少Unicode收錄漢字字數，同時尊重各地的習慣字形。但字源分離原則則破壞了“只對字，而不對字形”編碼之原則，亦遭受不少批評。

已統壹的漢字原則上ISO 10646只對字（Character），而非字形（Glyph）編碼。同壹字各地可使用自己的標準寫法。下例中使用HTML標示同壹編碼的字在不同地區中的寫法（但只是我的電腦提供的字型，未必代表該地區的標準寫法）。擴充區D包含的都是所謂的「急用漢字」，合***222個新漢字，於2010年下旬發布的Unicode6.0中，編碼範圍為 U+2B740 至 U+2B81F（實際有字符為 U+2B740 至 U+2B81D）。

擴展D區原本計劃放置擴展C區未收錄的16,000多個漢字，但在2007年5月，臺灣撤消了6,545個第二部分字集內私用漢字，不再使用字，原因是那些人名用字的擁有人或已去世或已移居外地，此後擴展D區縮減到大約10,000字左右。，由於各種阻礙，協議先把數量較少，又急切要收錄的漢字提交出來，就是「急用漢字」，以便和統壹碼6.0.0版壹起發表。提出的急用漢字只有二百二十二字（本來有二百二十三字，但中國大陸撤回其中壹字）。現在文字小組把第二部分字集延後到擴充E區。