中國的漢字如何編碼？

所謂編碼，是以固定的順序排列字符，並以此做為記錄、存貯、傳遞、交換的統壹

內部特征，這個字符排列順序被稱為“編碼”。

字庫的編碼是字庫組織的依據，也是文字處理的基礎。不同國家和地區有不同的編

碼標準，和中文字庫有關的常見編碼有：單字節編碼、GB2312-80、GB12345-90、GBK、U

nicode編碼、ISO10646 / Unicode字符集、GB18030-2000、BIG5編碼，下面簡要介紹壹

下：

單字節編碼

MS Windows：Windows Latin 1（ANSI）

MS-DOS：MS-DOS Latin US

Macintosh：Macintosh Roman

GB2312-80

全稱是GB2312-80《信息交換用漢字編碼字符集基本集》，1980年發布，是中文信

息處理的國家標準，在大陸及海外使用簡體中文的地區（如新加坡等）是強制使用的唯

壹中文編碼。P-Windows3.2和蘋果OS就是以GB2312為基本漢字編碼， Windows 95/98則

以GBK為基本漢字編碼、但兼容支持GB2312。

雙字節編碼

範圍：A1A1~FEFE

A1-A9：符號區，包含682個符號

B0-F7：漢字區，包含6763個漢字

GB碼***收錄6763個簡體漢字、682個符號，其中漢字部分：壹級字3755，以拼音排

序，二級字3008，以偏旁排序。該標準的制定和應用為規範、推動中文信息化進程起了

很大作用。

GB12345-90

1990年制定了繁體字的編碼標準GB12345-90《信息交換用漢字編碼字符集第壹輔助

集》，目的在於規範必須使用繁體字的各種場合，以及古籍整理等。該標準***收錄6866

個漢字（比GB2312多103個字，其它廠商的字庫大多不包括這些字），純繁體的字大概有

2200余個。

雙字節編碼

範圍：A1A1~FEFE

A1-A9：符號區，增加豎排符號

B0-F9：漢字區，包含6866個漢字

Unicode編碼(Universal Multiple Octet Coded Character Set)

國際標準組織於1984年4月成立ISO/IEC JTC1/SC2/WG2工作組，針對各國文字、符號

進行統壹性編碼。1991年美國跨國公司成立Unicode Consortium，並於1991年10月與WG2

達成協議，采用同壹編碼字集。目前Unicode是采用16位編碼體系，其字符集內容與ISO1

0646的BMP（Basic Multilingual Plane）相同。Unicode於1992年6月通過DIS（Draf

International Standard），目前版本V2.0於1996公布，內容包含符號6811個，漢字209

02個，韓文拼音11172個，造字區6400個，保留20249個，***計65534個。

ISO10646 / Unicode字符集

全球可以***享的編碼字符集。

UCS-4：組八位平面八位行八位字位八位

UCS-2：00組中的00平面是基本多文種平面（BMP），4E00~9FFF 中日韓文字

Ext A（CJK）：3400~4DB7，***6584字

Ext B（CJK）：42，807個漢字，在第2平面的0100~A836

GBK編碼(Chinese Internal Code Specification)

GBK編碼是中國大陸制訂的、等同於UCS的新的中文編碼擴展國家標準。GBK工作小組

於1995年10月，同年12月完成GBK規範。該編碼標準兼容GB2312，***收錄漢字21003個、

符號883個，並提供1894個造字碼位，簡、繁體字融於壹庫。

Windows95/98簡體中文版的字庫表層編碼就采用的是GBK，通過GBK與UCS之間壹壹對應的

碼表與底層字庫聯系。

英文名：Chinese Internal Code Specification

中文名：漢字內碼擴展規範1.0版

雙字節編碼，GB2312-80的擴充，在碼位上和GB2312-80兼容

範圍：8140~FEFE（剔除xx7F）***23940個碼位

包含21003個漢字，包含了ISO/IEC 10646-1中的全部中日韓漢字

GB18030-2000

英文名：Chinese Internal Code Specification

中文名：信息技術信息交換用漢字編碼字符集

基本集的擴充（ 2000-03-17發布和實施）

單字節、雙字節、四字節編碼

向下與國家標準GB 2312信息處理交換碼所對應的事實上的內碼標準兼容。

在字匯上支持GB 13000.1的全部中、日、韓（CJK）統壹漢字字符和全部CJK統壹漢字擴

充A的字符。

BIG5編碼

是目前臺灣、香港地區普遍使用的壹種繁體漢字的編碼標準，包括440個符號，壹級

漢字5401個、二級漢字7652個，***計13060個漢字。