GBK 向下與 GB 2312 編碼兼容,向上支持 ISO 10646.1 國際標準,是前者向後者過渡過程中的壹個承上啟下的標準。
ISO 10646 是國際標準化組織 ISO 公布的壹個編碼標準,即 Universal Multilpe-Octet Coded Character Set(簡稱 UCS),大陸譯為《通用多八位編碼字符集》,臺灣譯為《廣用多八位元編碼字元集》,它與 Unicode 組織的 Unicode 編碼完全兼容。ISO 10646.1 是該標準的第壹部分《體系結構與基本多文種平面》。我國 1993 年以 GB 13000.1 國家標準的形式予以認可(即 GB 13000.1 等同於 ISO 10646.1)。
ISO 10646 是壹個包括世界上各種語言的書面形式以及附加符號的編碼體系。其中的漢字部分稱為“CJK 統壹漢字”(C 指中國,J 指日本,K 指朝鮮)。而其中的中國部分,包括了源自中國大陸的 GB 2312、GB 12345、《現代漢語通用字表》等法定標準的漢字和符號,以及源自臺灣的 CNS 11643 標準中第 1、2 字面(基本等同於 BIG-5 編碼)、第 14 字面的漢字和符號。
壹、字匯
GBK 規範收錄了 ISO 10646.1 中的全部 CJK 漢字和符號,並有所補充。具體包括:
1. GB 2312 中的全部漢字、非漢字符號。
2. GB 13000.1 中的其他 CJK 漢字。以上合計 20902 個 GB 化漢字。
3. 《簡化字總表》中未收入 GB 13000.1 的 52 個漢字。
4. 《康熙字典》及《辭海》中未收入 GB 13000.1 的 28 個部首及重要構件。
5. 13 個漢字結構符。
6. BIG-5 中未被 GB 2312 收入、但存在於 GB 13000.1 中的 139 個圖形符號。
7. GB 12345 增補的 6 個拼音符號。
8. 漢字“○”。
9. GB 12345 增補的 19 個豎排標點符號(GB 12345 較 GB 2312 增補豎排標點符號 29 個,其中 10 個未被 GB 13000.1 收入,故 GBK 亦不收)。
10. 從 GB 13000.1 的 CJK 兼容區挑選出的 21 個漢字。
11. GB 13000.1 收入的 31 個 IBM OS/2 專用符號。
二、碼位分配及順序
GBK 亦采用雙字節表示,總體編碼範圍為 8140-FEFE,首字節在 81-FE 之間,尾字節在 40-FE 之間,剔除 xx7F 壹條線。總計 23940 個碼位,***收入 21886 個漢字和圖形符號,其中漢字(包括部首和構件)21003 個,圖形符號 883 個。
全部編碼分為三大部分:
1. 漢字區。包括:
a. GB 2312 漢字區。即 GBK/2: B0A1-F7FE。收錄 GB 2312 漢字 6763 個,按原順序排列。
b. GB 13000.1 擴充漢字區。包括:
(1) GBK/3: 8140-A0FE。收錄 GB 13000.1 中的 CJK 漢字 6080 個。
(2) GBK/4: AA40-FEA0。收錄 CJK 漢字和增補的漢字 8160 個。CJK 漢字在前,按 UCS 代碼大小排列;增補的漢字(包括部首和構件)在後,按《康熙字典》的頁碼/字位排列。
2. 圖形符號區。包括:
a. GB 2312 非漢字符號區。即 GBK/1: A1A1-A9FE。其中除 GB 2312 的符號外,還有 10 個小寫羅馬數字和 GB 12345 增補的符號。計符號 717 個。
b. GB 13000.1 擴充非漢字區。即 GBK/5: A840-A9A0。BIG-5 非漢字符號、結構符和“○”排列在此區。計符號 166 個。
3. 用戶自定義區:分為(1)(2)(3)三個小區。
(1) AAA1-AFFE,碼位 564 個。
(2) F8A1-FEFE,碼位 658 個。
(3) A140-A7A0,碼位 672 個。
第(3)區盡管對用戶開放,但限制使用,因為不排除未來在此區域增補新字符的可能性。
三、字形
GBK 對字形作了如下的規定:
1. 原則上與 GB 13000.1 G列(即源自中國大陸法定標準的漢字)下的字形/筆形保持壹致。
2. 在 CJK 漢字認同規則的總框架內,對所有的 GBK 編碼漢字實施“無重碼正形”(“GB 化”);即在不造成重碼的前提下,盡量采用中國新字形。
3. 對於超出 CJK 漢字認同規則的、或認同規則尚未明確規定的漢字,在 GBK 碼位上暫安放舊字形。這樣,在許多情況下 GBK 收入了同壹漢字的新舊兩種字形。
4. 非漢字符號的字形,凡 GB 2312 已經包括的,與 GB 2312 保持壹致;超出 GB 2312 的部分,與 GB 13000.1 保持壹致。
5. 帶聲調的拼音字母取半角形式。
四、GBK 代碼表
見 下壹頁。
五、目前應用
在基本操作環境方面,微軟公司自 Windows 95 簡體中文版始,系統采用 GBK 代碼,它包括了 TrueType 宋體、黑體兩種 GBK 字庫(北京中易電子公司 提供),可以用於顯示和打印,並提供了四種 GBK 漢字輸入法。此外,瀏覽器 IE 4.0 簡體、繁體中文版內部提供了壹個 GBK-BIG5 代碼雙向轉換的功能。
微軟公司為 Internet Exporer 提供的語言包中,簡體中文支持(Simplified Chinese Languege Suport Kit)的兩種字庫宋體、黑體,也是 GBK 漢字(珠海四通電腦排版系統開發公司 提供)。其他壹些中文字庫生產廠商,也開始提供 TrueType 或 PostScript GBK 字庫。
許多外掛式的中文平臺,如南極星、四通利方(Richwin)等,提供 GBK 碼的支持,包括字庫、輸入法和 GBK 與其他中文代碼的轉換器。
在互聯網方面,許多網站的網頁使用了 GBK 代碼,如《人民日報》等。
但是,多數搜索引擎,都不能很好地支持 GBK 漢字的搜索。大陸地區的搜索引擎,有些能夠不完善地支持 GBK 漢字檢索。比如,檢索 GBK 漢字“镕”(),只有在 網易 等極個別的兩三個搜索引擎中能查到,而檢索“朱镕基”(朱基)總理三個字,則能在 搜索客(Cseek)、天網 等更多的幾個搜索引擎中查到。而港臺和國外的搜索引擎,甚至是知名的、具有簡體中文查詢能力的搜索引擎,如 Yahoo!、Openfind、AltaVista 等,都不支持 GBK 搜索。
其他應用方面,微軟公司的 Office 95 簡體中文版以上版本,提供 GBK 碼的檢索和排序(按筆劃和拼音兩種方式)。
關於 GBK 碼的輸入,請參考本站《查詢指南》單元 GBK 碼漢字及輸入法 。