當前位置:成語大全網 - 漢語詞典 - 中日韓越統壹表意文字的詞源

中日韓越統壹表意文字的詞源

最早的統壹漢字

統壹漢字(20,902個字符)的原始來源來自以下字集:G0: GB 2312-80: 6,763個字符。

g 1:GB 12345-90:2352字(包括58個香港字和2個官方字,不包括與G0重疊的字)。

G3:GB 7589-87:7237字

G5:GB 7590-87:7039字

G7:現代漢語常用詞表:642(G0,1,3,5,8不包含的詞)

G8: GB 8565-89: 290字(G0,1,3,5不包含的字)t 1:cns 11643-1986第壹個字面量:5,401+。

T2:CNS 11643-1986第二稿:7650字。

te:cns 11643-1986第十四字面值:6,319+239+10(包括239個CCCII字符和10個XCCS字符)j1。

J2:JIS X 0212-90:5801字K0:KSC 5601-87:4888字(含268個重復字)。

k 1:KSC 5657-91:2856字。

以上源詞集實現了詞源分離的原則。

還有:ANSI Z39.64-1989(EACC)、Big5、CCCII第壹面、GB 12052-89、JEF、中國大陸電報代碼、臺灣省電報代碼、施樂中文。這些源詞集不會實現詞源分離的原則。

很多人以為在20902個統壹漢字中,只有Big5的13000多個字來自臺灣省,其實不然。這6000多個漢字是從以下字典或詞集中獲得的:《中國大陸康熙字典》有5357個詞(唯壹的1892個詞)。

《漢語詞典》有5888個詞(獨壹無二的339個詞)

G3: GB 7589-87繁體中文字符:2391

G5: GB 7590-87繁體中文字符:1226字符

G7: 120字符GS:新加坡漢字226字符臺灣省T3:cns 11643-1992第三字面(原cns 11643-1986第十四字面)新增字符。

T4:CNS 11643-1992第四種文字

t5:CNS 11643-1992第五個文字

T6:CNS 11643-1992第六個文字

T7:CNS 11643-1992第七個文字

TF:cns 11643-1992第十五個文字

日本JA:統壹日本it廠商當代表意文字,1993。

南韓K2:PKS c 5700-1:1994 k3:PKS c 5700-2:1994。

越南V 0:TCVN 5773:1993V 1:TCVN 6056:1995。

擴展區域B包含42,765,438+065,438+0個新漢字,位於U+20000-U+2A6D6。根據ISO/IEC JTC 1/SC2/WG2/IRGN 777,這40,000個漢字是從以下詞典或詞集中獲得的:

CNS 16438第4平面至15平面30177漢字;

出現在《漢語大詞典》中的28,965,438+04個漢字;

《康熙字典》中出現的65,438+08,486個漢字(包括補遺中出現的壹個漢字);

朝鮮國家標準中收錄的5642個漢字;

越南國家標準4232字;

1,081 HKSCS未記錄漢字;

553個《漢語大詞典》沒有收錄的漢字;

《四庫全書》未收漢字522個;

日本工業標準JIS X 0213: 302不包含在平面3和平面4中的漢字;

1980版《辭海》未收字247個;

大韓民國PKS 5700-3:1998中的166未列出漢字;

《中國大百科全書》未收漢字86個;

《辭源》中出現的66個未記漢字;

北大方正排版系統出現的65個未錄入漢字;

這壹堆有很多重復的漢字,所以經過排序,總數其實只有42711個漢字。

另外,在U+2f800-U+2fa1d的位置,有542個來自臺灣省的兼容漢字。為了使Unicode向後兼容GB 18030和香港增補字符集(HKSCS)中的漢字全部出來,並且擴展C區有所延遲,Unicode 4.1中引入了香港增補字符集的14個字符和HKSCS的8個字符。這個22個字符編譯在U+9FA6-U+9FBB的位置。

另外,在U+FA70-U+FAD9的位置,有106個來自朝鮮的兼容漢字。

擴展區C根據規劃,中日韓統壹表意擴展區C將包含4251個漢字,包括中國大陸、澳門、臺灣省、日本和越南尚未編碼的漢字。這些漢字有望包含在下壹個Unicode版本中,位於U+26E0-U+2B77A。詞源分離原則

源分離原則(源分離規則)是整理中日韓統壹表意文字的基礎。

因為的字體有很多細微的差別,比如“胡”字的第壹筆,臺省為左,為點,日文為橫,這種程度的差別理想上更好地融合壹個字。然而,從以往受挫的單詞合並計劃的經驗來看,已知集成字符集無法對應當前的通用字符集(Big5或國標碼),這是實現集成字符集的最大障礙。

例如,日本的JIS標準包括單詞“個“還有那個‘劍’字。本來這兩個字在JIS文件中可以共存,但是采用集成字符集後,就變成了同壹個字,使用起來會造成麻煩。於是,詞源分離原則誕生了。

詞源分離原則是指如果上述詞源中的任意壹個詞集同時接收到兩個以上的詞字形,則這些詞也包含在中日韓統壹表意文字中。這樣,現有的原始字符集可以與Unicode漢字壹壹對應。

因為Unicode在統壹中日韓表意文字方面的主要訴求是大幅減少Unicode收錄的漢字數量,同時尊重各地的習慣字形。但字源分離原則破壞了“只編碼字,不編碼字形”的原則,也受到了批評。

原則上,ISO 10646只編碼字符,不編碼字形。所有地方都可以使用他們自己的同壹個單詞的標準拼法。在下面的例子中,HTML用來表示相同代碼的單詞在不同地區是如何書寫的(但只是我的電腦提供的字體,不壹定代表那個地區的標準書寫)。擴展名D包含所有所謂的“緊急漢字”,包括***222個新漢字。在2010後期發布的Unicode6.0中,編碼範圍是從U+2B740到U+2B81F(實際字符是從U+2B740到U+2B81D)。

擴展D區原計劃存儲擴展C區未包含的16000多個漢字。然而,2007年5月,臺灣省取消了字符集第二部分中的6545個私人漢字,不再使用漢字,因為那些私人姓名的所有者要麽已經去世,要麽搬到了其他地方。此後,擴展的D區域減少到大約65,438+00,000個字符。由於種種障礙,該協議首先提交了少量急需納入的漢字,即“急漢字”,以便與Unicode 6.0.0壹起發布。緊急漢字只有222個(本來有223個,中國大陸把其中壹個撤了)。現在詞組把詞集的第二部分推遲到了擴展e區。