GBK用兩個字節表示,整體編碼範圍為8140-FEFE,第壹個字節在81-FE之間,最後壹個字節在40-FE之間,不包括壹行xx7F。總共23,940個碼點,* * *包含265,438+0,886個漢字和圖形符號,其中265,438+0,003個漢字(包括偏旁部首和部件)和883個圖形符號。1.漢字區。包括:
A.GB 2312漢字區。即GBK/2: B0A1-F7FE。GB 2312共有6763個漢字,按原順序排列。
B.GB 13000.1擴展了漢字區域。包括:
(1) GBK .包括GB 13000.1中的6080個CJK漢字。
(2) GBK/4: AA40-FEA0 .包括CJK漢字和8160增補漢字。
CJK漢字優先,按UCS碼大小排列;補充漢字(包括偏旁部首和部件)按《康熙字典》頁碼/位置排在最後。
2.圖形符號區。包括:
A.GB 2312非漢字符號區。也就是gbk/1:a 1a 1-a9fe。除GB 2312的符號外,
還有GB 12345補充的10小寫羅馬數字和符號。有717個符號。
B.GB 13000.1擴展了非漢字區。即GBK/5: A840-A9A0。BIG-5非中文符號、結構符號和“○”排列在此區域。有166個符號。
3.自定義區域:分為(1)(2)(3)三個社區。
(1) AAA1-AFFE,具有564個編碼比特。
(2) F8A1-FEFE,具有658個碼位。
(3) A140-A7A0,672碼位。
盡管區域(3)對用戶開放,但其使用受到限制,因為不排除未來在該區域添加新字符的可能性。
這裏有壹些提示:
第壹,在php中,字符編碼是基於傳輸的編碼,所以使用用戶輸入的編碼,不會自動改變,但是在asp中,默認的編碼是unicode,所以我們很容易得到gbk-& gt;Unicode編碼對照表,這樣即使沒有基礎庫,也能輕松實現gbk到utf-8的轉換;
第二,因為GBK的最低值是0x40,也就是64,有時候在組織壹些涉及中文的字符串時,最好在64之前使用ascii碼進行字符分割,這樣無論如何都不會出現替換或者分割時的亂碼。比較常見的有、、;,:,,,這些字符絕對不會給gb編碼添亂。