在GB2312中,對接收到的漢字進行分區,每個分區包含94個漢字/符號。這種表示也稱為位置代碼。
每個區域包含的字符如下:01-09區域是特殊符號;16-55區為壹級漢字,按拼音排序;區域56-87為二級漢字,按部首/筆畫排序;10-15和88-94未編碼。
(2)雙字節表示
兩個字節中,第壹個字節是第壹個字節,最後壹個字節是第二個字節。習慣上稱第壹個字節為“高字節”,第二個字節為“低字節”。
“高字節”使用0xa 1-0xf 7(01-87的區號加0xA0),“低字節”使用0xa 1-0x Fe(01-94加0xA0)。又稱大五碼或大五碼,由臺灣省財團信息產業政策理事會與宏碁、神達、壹加、零壹、FIC五家軟件公司於1984年創立,故稱大五碼。
Big5碼的產生是因為臺灣省不同廠商推出了不同的碼,比如永恒碼,IBM PS55,王安碼等。,這是互不相容的。另壹方面,臺灣省政府尚未推出正式的漢字編碼,而中國大陸的GB2312編碼並不包括繁體字。Big5代碼采用雙字節存儲方式,用兩個字節對壹個字進行編碼。第壹個字節稱為“高字節”,第二個字節稱為“低字節”。高位字節的編碼範圍是0xA1-0xF9,低位字節的編碼範圍是0x40-0x7E和0xA1-0xFE。
各編碼範圍對應的字符類型如下:0xA140-0xA3BF為標點符號、希臘字母、特殊符號,另外0xA259-0xA261,有計量單位的雙音節詞:乲乲乳乳。0xA440-0xC67E是常用漢字,先按筆畫排序,再按部首排序;0xC940-0xF9D5是第二常用的漢字,也是先按筆畫排序,再按部首排序。Big5碼雖然包含了壹萬多個字符,但是並沒有考慮到人名、地名、方言、化學、生物的字符,也沒有包括日語的平假名、片假名字母。
比如臺灣省就把“著”當成了“著”的變體,所以“著”字沒有收錄。《康熙字典》中的壹些偏旁詞(如“子”、“比”、“比”、“比”等。),以及常見的人名(如“易”、“宣”、“畢”等。