內部特征,這個字符排列順序被稱為“編碼”。
字庫的編碼是字庫組織的依據,也是文字處理的基礎。不同國家和地區有不同的編
碼標準,和中文字庫有關的常見編碼有:單字節編碼、GB2312-80、GB12345-90、GBK、U
nicode編碼、ISO10646 / Unicode字符集、GB18030-2000、BIG5編碼,下面簡要介紹壹
下:
單字節編碼
MS Windows:Windows Latin 1(ANSI)
MS-DOS:MS-DOS Latin US
Macintosh:Macintosh Roman
GB2312-80
全稱是GB2312-80《信息交換用漢字編碼字符集 基本集》,1980年發布,是中文信
息處理的國家標準,在大陸及海外使用簡體中文的地區(如新加坡等)是強制使用的唯
壹中文編碼。P-Windows3.2和蘋果OS就是以GB2312為基本漢字編碼, Windows 95/98則
以GBK為基本漢字編碼、但兼容支持GB2312。
雙字節編碼
範圍:A1A1~FEFE
A1-A9:符號區,包含682個符號
B0-F7:漢字區,包含6763個漢字
GB碼***收錄6763個簡體漢字、682個符號,其中漢字部分:壹級字3755,以拼音排
序,二級字3008,以偏旁排序。該標準的制定和應用為規範、推動中文信息化進程起了
很大作用。
GB12345-90
1990年制定了繁體字的編碼標準GB12345-90《信息交換用漢字編碼字符集 第壹輔助
集》,目的在於規範必須使用繁體字的各種場合,以及古籍整理等。該標準***收錄6866
個漢字(比GB2312多103個字,其它廠商的字庫大多不包括這些字),純繁體的字大概有
2200余個。
雙字節編碼
範圍:A1A1~FEFE
A1-A9:符號區,增加豎排符號
B0-F9:漢字區,包含6866個漢字
Unicode編碼(Universal Multiple Octet Coded Character Set)
國際標準組織於1984年4月成立ISO/IEC JTC1/SC2/WG2工作組,針對各國文字、符號
進行統壹性編碼。1991年美國跨國公司成立Unicode Consortium,並於1991年10月與WG2
達成協議,采用同壹編碼字集。目前Unicode是采用16位編碼體系,其字符集內容與ISO1
0646的BMP(Basic Multilingual Plane)相同。Unicode於1992年6月通過DIS(Draf
International Standard),目前版本V2.0於1996公布,內容包含符號6811個,漢字209
02個,韓文拼音11172個,造字區6400個,保留20249個,***計65534個。
ISO10646 / Unicode字符集
全球可以***享的編碼字符集。
UCS-4:組八位 平面八位 行八位 字位八位
UCS-2:00組中的00平面是基本多文種平面(BMP),4E00~9FFF 中日韓文字
Ext A(CJK):3400~4DB7,***6584字
Ext B(CJK):42,807個漢字,在第2平面的0100~A836
GBK編碼(Chinese Internal Code Specification)
GBK編碼是中國大陸制訂的、等同於UCS的新的中文編碼擴展國家標準。GBK工作小組
於1995年10月,同年12月完成GBK規範。該編碼標準兼容GB2312,***收錄漢字21003個、
符號883個,並提供1894個造字碼位,簡、繁體字融於壹庫。
Windows95/98簡體中文版的字庫表層編碼就采用的是GBK,通過GBK與UCS之間壹壹對應的
碼表與底層字庫聯系。
英文名:Chinese Internal Code Specification
中文名:漢字內碼擴展規範1.0版
雙字節編碼,GB2312-80的擴充,在碼位上和GB2312-80兼容
範圍:8140~FEFE(剔除xx7F)***23940個碼位
包含21003個漢字,包含了ISO/IEC 10646-1中的全部中日韓漢字
GB18030-2000
英文名:Chinese Internal Code Specification
中文名:信息技術 信息交換用漢字編碼字符集
基本集的擴充( 2000-03-17發布和實施)
單字節、雙字節、四字節編碼
向下與國家標準GB 2312信息處理交換碼所對應的事實上的內碼標準兼容。
在字匯上支持GB 13000.1的全部中、日、韓(CJK)統壹漢字字符和全部CJK統壹漢字擴
充A的字符。
BIG5編碼
是目前臺灣、香港地區普遍使用的壹種繁體漢字的編碼標準,包括440個符號,壹級
漢字5401個、二級漢字7652個,***計13060個漢字。