當前位置:成語大全網 - 新華字典 - 中日韓越統壹表意文字的字源

中日韓越統壹表意文字的字源

最初期統壹漢字

最初期的統壹漢字(20,902字)字源來自以下字集: G0:GB 2312-80:6,763字

G1:GB 12345-90:2,352字(含58個香港字和2個吏讀字,不包括和G0重覆的字)

G3:GB 7589-87:7,237字

G5:GB 7590-87:7,039字

G7:現代漢語通用字表:642(G0, 1, 3, 5, 8未包括的字)

G8:GB 8565-89:290字(G0, 1, 3, 5未包括的字) T1:CNS 11643-1986第壹字面:5,401+9字(含9個計量用漢字)

T2:CNS 11643-1986第二字面:7,650字

TE:CNS 11643-1986第十四字面:6,319+239+10(含239個CCCII特字和10個XCCS特字) J1:JIS X 0208-90:6,335+1字

J2:JIS X 0212-90:5,801字 K0:KS C 5601-87:4,888字(含268個重見字)

K1:KS C 5657-91:2,856字

以上的來源字集會實施字源分離原則。

另外還有:ANSI Z39.64-1989(EACC)、Big5、CCCII第壹面、GB 12052-89、JEF、中國大陸電報碼、臺灣電報碼、Xerox Chinese。這些來源字集不會實施字源分離原則。

很多人以為20,902統壹漢字中來自臺灣的只是Big5的壹萬三千多字,其實不然. 這6千多個漢字分別從以下字典或字集中取得:中國大陸 《康熙字典》5357字(獨有1892字)

《漢語大字典》5888字(獨有339字)

G3:GB 7589-87 繁體字:2391字

G5:GB 7590-87 繁體字:1226字

G7:120字 GS:新加坡漢字226字 臺灣 T3:CNS 11643-1992 第三字面(原本為CNS 11643-1986第十四字面)新加入字元

T4:CNS 11643-1992 第四字面

T5:CNS 11643-1992 第五字面

T6:CNS 11643-1992 第六字面

T7:CNS 11643-1992 第七字面

TF:CNS 11643-1992 第十五字面

日本 JA: Unified Japanese IT Vendors Contemporary Ideographs, 1993

南韓 K2:PKS C 5700-1:1994 K3:PKS C 5700-2:1994

越南 V0:TCVN 5773:1993 V1:TCVN 6056:1995

擴展B區包含有42,711個新的漢字,位置在 U+20000—U+2A6D6。根據ISO/IEC JTC1/SC2/WG2/IRG N777號文件,這四萬多個漢字分別從以下字典或字集中取得:

CNS 11643的第4平面到第15平面所收錄的30,177個漢字;

在《漢語大字典》中出現的28,914個未收錄漢字;

在《康熙字典》中出現的18,486個未收錄漢字(包括壹個在補遺篇出現漢字);

在北朝鮮的國家標準所收錄的5,642個漢字;

在越南的國家標準所收錄的4,232個字喃;

HKSCS中出現的1,081個未收錄漢字;

《漢語大詞典》中出現的553個未收錄漢字;

《四庫全書》中出現的522個未收錄漢字;

日本工業標準的JIS X 0213第3平面及第4平面的302個未收錄漢字;

1980年代版本的《辭海》中出現的247個未收錄漢字;

大韓民國PKS 5700-3:1998中出現的166個未收錄漢字;

《中國大百科全書》中出現的86個未收錄漢字;

《辭源》中出現的66個未收錄漢字;

北大方正排版系統中出現的65個未收錄漢字;

這堆漢字中重復的漢字有不少,所以經過整理之後,總數實際上只有42,711個漢字。

另外,在 U+2F800—U+2FA1D 的位置,放了542個來自臺灣的兼容漢字。 為使 Unicode 向下兼容 GB 18030 和香港增補字符集(HKSCS)的所有漢字,而擴展C區又遲遲未能出籠,在 Unicode 4.1 版中引進了14個香港增補字符集的用字和8個 GB 18030 用字。該22字被編於 U+9FA6—U+9FBB 的位置。

另外,在 U+FA70—U+FAD9 的位置,放了106個來自北朝鮮的兼容漢字。

擴展C區按計劃,中日韓統壹表意文字擴展C區將收錄4,251個漢字,包括來自中國大陸、澳門、臺灣、日本、越南等尚未被編碼的漢字。這些漢字預計會收錄在下壹版的 Unicode 版本中,位置在 U+2A6E0—U+2B77A。字源分離原則

字源分離原則字源分離原則(Source Separation Rule)是整理中日韓統壹表意文字的基礎。

由於CJK各地字型多有微妙的差異,如“戶”字的第壹筆,臺灣作撇、中國大陸作點、日本作橫,這種程度的差異,理想上是整並為壹個字為佳。然而,從之前各種受挫之文字整並計劃的經驗得知,整合字集與現行通用字集(Big5或國標碼)等無法壹壹對應,是推行整合字集的最大阻礙。

例如,日本的JIS標準同時收錄了“剣”字與“劍”字,原本JIS文件裏這兩個字可以並存,但采用整合字集後反而變成同壹個字,會造成使用上的困擾。於是,字源分離原則因而誕生。

字源分離原則是指,在上述所列出之各種字源裏,若有任何字集同時收了兩種以上的文字字形,則在Unicode中日韓統壹表意文字中,也同時收錄這些字。這樣壹來,現行的各種原有字集與Unicode漢字可以壹壹對應。

由於Unicode中日韓統壹表意文字的主要訴求,就是能大幅減少Unicode收錄漢字字數,同時尊重各地的習慣字形。但字源分離原則則破壞了“只對字,而不對字形”編碼之原則,亦遭受不少批評。

已統壹的漢字原則上ISO 10646只對字(Character),而非字形(Glyph)編碼。同壹字各地可使用自己的標準寫法。下例中使用HTML標示同壹編碼的字在不同地區中的寫法(但只是我的電腦提供的字型,未必代表該地區的標準寫法)。 擴充區D包含的都是所謂的「急用漢字」,合***222個新漢字,於2010年下旬發布的Unicode6.0中,編碼範圍為 U+2B740 至 U+2B81F(實際有字符為 U+2B740 至 U+2B81D)。

擴展D區原本計劃放置擴展C區未收錄的16,000多個漢字,但在2007年5月,臺灣撤消了6,545個第二部分字集內私用漢字,不再使用字,原因是那些人名用字的擁有人或已去世或已移居外地,此後擴展D區縮減到大約10,000字左右。,由於各種阻礙,協議先把數量較少,又急切要收錄的漢字提交出來,就是「急用漢字」,以便和統壹碼6.0.0版壹起發表。提出的急用漢字只有二百二十二字(本來有二百二十三字,但中國大陸撤回其中壹字)。現在文字小組把第二部分字集延後到擴充E區。