GBK向下兼容GB 2312編碼,向上支持ISO 10646.1國際標準,是前者與後者的承上啟下。
完全兼容Unicode組織的Unicode編碼。罇O 10646.1是標準、架構和基本多語言平面的第壹部分。中國的1993以GB 13000.1國家標準的形式得到認可(即GB 13000.1相當於ISO 10646.1)。
O 10646是壹個包括世界上所有語言的書寫形式和附加符號的編碼系統。漢字部分稱為“CJK統壹漢字”(C指中國,J指日本,K指朝鮮)。其中,中國部分包括來自中國大陸的GB 2312、GB 12345和《現代漢語通用字表》等法定標準的漢字和符號,以及來自臺灣省的CNS 11643中的1和2字面值(基本相當於BIG-5編碼)。
(1)詞匯
GBK規範包括ISO 10646.1中的所有CJK漢字和符號,並做了壹些補充。具體包括:
1中的所有漢字和非漢字。GB 2312。
2.GB 13000.1中的其他CJK漢字。以上共20902 GB漢字。
3.GB 13000.1的52個漢字不納入簡化字匯總。
4.《康熙字典》和《辭海》中有28個部首和重要部件未被GB 13000.1收錄。
5.13漢字結構符號。
6.Big-5中有139個圖形符號未包含在GB 2312中,但存在於GB 13000.1中。
7.GB 12345補充的六個拼音符號。
8.漢字“○”。
9.GB 12345中增加的19豎排標點符號(與GB 2312相比,GB 10中增加了29個豎排標點符號,其中10不包含在GB 13000.1中,GBK不予接受。
10.21漢字選自GB 13000.1的CJK兼容區。
11 . GB 13000.1收入31 IBM OS/2特殊符號。
(2)、代碼分配和順序
GBK也用雙字節表示,整體編碼範圍是8140-FEFE,第壹個字節在81-FE之間,最後壹個字節在40-FE之間,不包括壹行xx7F。總共23,940個碼點,* * *包含265,438+0,886個漢字和圖形符號,其中265,438+0,003個漢字(包括偏旁部首和部件)和883個圖形符號。
所有代碼分為三部分:
1.漢字區。包括:
A.GB 2312漢字區。即GBK/2: B0A1-F7FE。GB 2312共有6763個漢字,按原順序排列。
B.GB 13000.1擴展了漢字區域。包括:
(1) GBK .包括GB 13000.1中的6080個CJK漢字。
(2) GBK/4: AA40-FEA0 .包括CJK漢字和8160增補漢字。CJK漢字優先,按UCS碼大小排列;補充漢字(包括偏旁部首和部件)按《康熙字典》頁碼/位置排在最後。
2.圖形符號區。包括:
A.GB 2312非漢字符號區。也就是gbk/1:a 1a 1-a9fe。除GB 2312的符號外,還有GB 12345補充的10小寫羅馬數字和符號。有717個符號。
B.GB 13000.1擴展了非漢字區。即GBK/5: A840-A9A0。BIG-5非中文符號、結構符號和“○”排列在此區域。有166個符號。
3.用戶自定義區(用戶添加區):分為(1)(2)(3)三個社區。
(1) AAA1-AFFE,具有564個編碼比特。
(2) F8A1-FEFE,具有658個碼位。
(3) A140-A7A0,672碼位。
盡管區域(3)對用戶開放,但其使用受到限制,因為不排除未來在該區域添加新字符的可能性。
(3)、字體
GBK對字形作了如下規定:
1.原則上與GB 13000.1 G(即源於中國大陸法定標準的漢字)欄目下的字體/筆形壹致。
2.在《CJK漢字識別規則》的總體框架內,所有GBK碼漢字應“正形無重碼”(“GB”);即在不造成重碼的前提下,盡量采用新中國字體。
3.對於超出CJK漢字識別規則,或識別規則尚未明確規定的漢字,暫時將舊字形放在GBK碼上。這樣,在很多情況下,GBK吸收了同壹漢字的新舊字形。
4.非漢字符號的字形,已納入GB 2312,與GB 2312壹致;超出GB 2312的部分與GB 100038+0壹致。
5.帶聲調的拼音字母采取半字型的形式。
代碼GB 2312是中國漢字信息交換國家標準代碼。代碼的全稱是信息交換用基本字符集。標準編號為GB 2312-80 (GB是“國家標準”壹詞的漢語拼音縮寫),由中華人民共和國標準總局發布,編號為198。習慣上稱為國家標準代碼、國家標準代碼或區號。這是壹個簡化的漢字編碼,在中國大陸很流行。新加坡等地也使用這個代碼。
GB 2312-80包含簡體漢字和通用符號、序號、數字、拉丁字母、日文假名、希臘字母、俄文字母、漢語音標和漢語拼音字母,共7445個圖形字符。其中漢字以外的圖形文字682個,漢字6763個。
GB 2312-80規定“任何圖形字符都用兩個字節表示。在GB 1988-80和GB 2311-80中,每個字節由七位代碼表示。兩個字節中的第壹個字節是第壹個字節,最後壹個字節是第二個字節。”傳統上,第壹個字節稱為“高字節”,第二個字節稱為“低字節”。
GB 2312-80將碼表分為94段,對應第壹個字節;每個區域有94個位置,對應第二個字節。兩個字節的值分別是區號值和位置號碼值加上32(20H)。
根據GB 2312-80,01 ~ 09區(原為1 ~ 9區,為方便區號,現更名為01 ~ 09區)為符號和數字區,16 ~ 87區為漢字區。10 ~ 15、88 ~ 94區域為“空白區域”,有待進壹步規範。但10區建議與3區94個圖形字符相同(即GB 1988-80中的94個圖形字符),字體寬度為其寬度的壹半。
GB 2312-80將收集到的漢字分為兩個層次。壹級漢字為常用漢字,共3755個,放在16 ~ 55區域,按漢語拼音字母/筆畫形狀順序排列;二級漢字為次常用漢字,3008個字,放在56 ~ 87個區域,按部首/筆畫順序排列。字的讀音以《普通話異讀字三級讀音檢查總表》(1963出版)初稿為準,字體以中華人民共和國、文化部、中國語言文字改革委員會出版的《印刷通用漢字字形表》(1964出版)為準。