當前位置:成語大全網 - 新華字典 - 譯碼的全部編碼分類

譯碼的全部編碼分類

1. 漢字區。包括:

a. GB 2312 漢字區。即 GBK/2: B0A1-F7FE。收錄 GB 2312 漢字 6763 個,按原順序排列。

b. GB 13000.1 擴充漢字區。包括:

(1) GBK/3: 8140-A0FE。收錄 GB 13000.1 中的 CJK 漢字 6080 個。

(2) GBK/4: AA40-FEA0。收錄 CJK 漢字和增補的漢字 8160 個。

CJK 漢字在前,按 UCS 代碼大小排列;增補的漢字(包括部首和構件)在後,按《康熙字典》的頁碼/字位排列。

2. 圖形符號區。包括:

a. GB 2312 非漢字符號區。即 GBK/1: A1A1-A9FE。其中除 GB 2312 的符號外,

還有 10 個小寫羅馬數字和 GB 12345 增補的符號。計符號 717 個。

b. GB 13000.1 擴充非漢字區。即 GBK/5: A840-A9A0。BIG-5 非漢字符號、結構符和“○”排列在此區。計符號 166 個。

3. 用戶自定義區:分為(1)(2)(3)三個小區。

(1) AAA1-AFFE,碼位 564 個。

(2) F8A1-FEFE,碼位 658 個。

(3) A140-A7A0,碼位 672 個。

第(3)區盡管對用戶開放,但限制使用,因為不排除未來在此區域增補新字符的可能性。

這裏有幾個小技巧:

1、在php中,字符編碼是按所發送的編碼為準的,因些使用的就是用戶輸入的編碼,不會自動改變,但在asp中,默認的編碼是unicode,這樣我們很容易就能得到gbk->unicode的編碼對照表,這樣即使在毫無基礎庫的情況下也能很容易的實現gbk到utf-8的轉換了;

2、由於GBK是高位最低數值是0x40,即是64,因此,有時候組織壹些涉及中文的字串時,分割字符最好用64之前的ascii碼,這樣在任意情況下替換或分割都不會出現亂碼,比較常用的是 ,、;、:、 、 、 ,這些字符永遠都不會給gb編碼添亂。