GBK向下兼容GB 2312編碼,向上支持ISO 10646.1國際標準,是前者與後者的承上啟下。
O 10646是ISO公布的編碼標準,即通用多八位編碼字符集(UCS),在中國大陸翻譯為通用多八位編碼字符集,在臺灣省翻譯為通用多八位編碼字符集。完全兼容Unicode組織的Unicode編碼。緒O 10646.1是標準、架構和基本多語言平面的第壹部分。中國的1993以GB 13000.1國家標準的形式得到認可(即GB 13000.1相當於ISO 10646.1)。
O 10646是壹個包括世界上所有語言的書寫形式和附加符號的編碼系統。漢字部分稱為“CJK統壹漢字”(C指中國,J指日本,K指朝鮮)。其中,中國部分包括來自中國大陸的GB 2312、GB 12345和《現代漢語通用字表》等法定標準的漢字和符號,以及來自臺灣省的CNS 11643中的1和2字面值(基本相當於BIG-5編碼)。
壹.詞匯
GBK規範包括ISO 10646.1中的所有CJK漢字和符號,並做了壹些補充。具體包括:
1中的所有漢字和非漢字。GB 2312。
2.GB 13000.1中的其他CJK漢字。以上共20902 GB漢字。
3.GB 13000.1的52個漢字不納入簡化字匯總。
4.《康熙字典》和《辭海》中有28個部首和重要部件未被GB 13000.1收錄。
5.13漢字結構符號。
6.Big-5中有139個圖形符號未包含在GB 2312中,但存在於GB 13000.1中。
7.GB 12345補充的六個拼音符號。
8.漢字“○”。
9.GB 12345中增加的19豎排標點符號(與GB 2312相比,GB 10中增加了29個豎排標點符號,其中10不包含在GB 13000.1中,GBK不予接受。
10.21漢字選自GB 13000.1的CJK兼容區。
11 . GB 13000.1收入31 IBM OS/2特殊符號。
二、代碼分配和順序
GBK也用雙字節表示,整體編碼範圍是8140-FEFE,第壹個字節在81-FE之間,最後壹個字節在40-FE之間,不包括壹行xx7F。總共23,940個碼點,* * *包含265,438+0,886個漢字和圖形符號,其中265,438+0,003個漢字(包括偏旁部首和部件)和883個圖形符號。
所有代碼分為三部分:
1.漢字區。包括:
A.GB 2312漢字區。即GBK/2: B0A1-F7FE。GB 2312共有6763個漢字,按原順序排列。
B.GB 13000.1擴展了漢字區域。包括:
(1) GBK .包括GB 13000.1中的6080個CJK漢字。
(2) GBK/4: AA40-FEA0 .包括CJK漢字和8160增補漢字。CJK漢字優先,按UCS碼大小排列;補充漢字(包括偏旁部首和部件)按《康熙字典》頁碼/位置排在最後。
2.圖形符號區。包括:
A.GB 2312非漢字符號區。也就是gbk/1:a 1a 1-a9fe。除GB 2312的符號外,還有GB 12345補充的10小寫羅馬數字和符號。有717個符號。
B.GB 13000.1擴展了非漢字區。即GBK/5: A840-A9A0。BIG-5非中文符號、結構符號和“○”排列在此區域。有166個符號。
3.自定義區域:分為(1)(2)(3)三個社區。
(1) AAA1-AFFE,具有564個編碼比特。
(2) F8A1-FEFE,具有658個碼位。
(3) A140-A7A0,672碼位。
盡管區域(3)對用戶開放,但其使用受到限制,因為不排除未來在該區域添加新字符的可能性。
第三,字體
GBK對字形作了如下規定:
1.原則上與GB 13000.1 G(即源於中國大陸法定標準的漢字)欄目下的字體/筆形壹致。
2.在《CJK漢字識別規則》的總體框架內,所有GBK碼漢字應“正形無重碼”(“GB”);即在不造成重碼的前提下,盡量采用新中國字體。
3.對於超出CJK漢字識別規則,或識別規則尚未明確規定的漢字,暫時將舊字形放在GBK碼上。這樣,在很多情況下,GBK吸收了同壹漢字的新舊字形。
4.非漢字符號的字形,已納入GB 2312,與GB 2312壹致;超出GB 2312的部分與GB 100038+0壹致。
5.帶聲調的拼音字母采用半角的形式。