應用linux時，gbk和gb2312是什麽？

GBK是另壹個漢字編碼標準，全稱是《中文內碼擴展規範(GBK)》，英文名稱是《中文內碼規範》，由中華人民共和國和全國信息技術標準化技術委員會於6月1995+2月1日制定。國家技術監督局標準化司和電子工業部科技質量監督司共同確定其為技術規範指導性文件，以號文件形式發布。[1995] 229號於1995年2月5日頒布實施。GBK規範的這個版本是版本1.0。GB是“國標”，K是“擴展”漢語拼音的第壹個字母。

GBK向下兼容GB 2312編碼，向上支持ISO 10646.1國際標準，是前者與後者的承上啟下。

完全兼容Unicode組織的Unicode編碼。罇O 10646.1是標準、架構和基本多語言平面的第壹部分。中國的1993以GB 13000.1國家標準的形式得到認可(即GB 13000.1相當於ISO 10646.1)。

O 10646是壹個包括世界上所有語言的書寫形式和附加符號的編碼系統。漢字部分稱為“CJK統壹漢字”(C指中國，J指日本，K指朝鮮)。其中，中國部分包括來自中國大陸的GB 2312、GB 12345和《現代漢語通用字表》等法定標準的漢字和符號，以及來自臺灣省的CNS 11643中的1和2字面值(基本相當於BIG-5編碼)。

(1)詞匯

GBK規範包括ISO 10646.1中的所有CJK漢字和符號，並做了壹些補充。具體包括:

1中的所有漢字和非漢字。GB 2312。

2.GB 13000.1中的其他CJK漢字。以上共20902 GB漢字。

3.GB 13000.1的52個漢字不納入簡化字匯總。

4.《康熙字典》和《辭海》中有28個部首和重要部件未被GB 13000.1收錄。

5.13漢字結構符號。

6.Big-5中有139個圖形符號未包含在GB 2312中，但存在於GB 13000.1中。

7.GB 12345補充的六個拼音符號。

8.漢字“○”。

9.GB 12345中增加的19豎排標點符號(與GB 2312相比，GB 10中增加了29個豎排標點符號，其中10不包含在GB 13000.1中，GBK不予接受。

10.21漢字選自GB 13000.1的CJK兼容區。

11 . GB 13000.1收入31 IBM OS/2特殊符號。

(2)、代碼分配和順序

GBK也用雙字節表示，整體編碼範圍是8140-FEFE，第壹個字節在81-FE之間，最後壹個字節在40-FE之間，不包括壹行xx7F。總共23，940個碼點，* * *包含265，438+0，886個漢字和圖形符號，其中265，438+0，003個漢字(包括偏旁部首和部件)和883個圖形符號。

所有代碼分為三部分:

1.漢字區。包括:

A.GB 2312漢字區。即GBK/2: B0A1-F7FE。GB 2312共有6763個漢字，按原順序排列。

B.GB 13000.1擴展了漢字區域。包括:

(1) GBK .包括GB 13000.1中的6080個CJK漢字。

(2) GBK/4: AA40-FEA0 .包括CJK漢字和8160增補漢字。CJK漢字優先，按UCS碼大小排列；補充漢字(包括偏旁部首和部件)按《康熙字典》頁碼/位置排在最後。

2.圖形符號區。包括:

A.GB 2312非漢字符號區。也就是gbk/1:a 1a 1-a9fe。除GB 2312的符號外，還有GB 12345補充的10小寫羅馬數字和符號。有717個符號。

B.GB 13000.1擴展了非漢字區。即GBK/5: A840-A9A0。BIG-5非中文符號、結構符號和“○”排列在此區域。有166個符號。

3.用戶自定義區(用戶添加區):分為(1)(2)(3)三個社區。

(1) AAA1-AFFE，具有564個編碼比特。

(2) F8A1-FEFE，具有658個碼位。

(3) A140-A7A0，672碼位。

盡管區域(3)對用戶開放，但其使用受到限制，因為不排除未來在該區域添加新字符的可能性。

(3)、字體

GBK對字形作了如下規定:

1.原則上與GB 13000.1 G(即源於中國大陸法定標準的漢字)欄目下的字體/筆形壹致。

2.在《CJK漢字識別規則》的總體框架內，所有GBK碼漢字應“正形無重碼”(“GB”)；即在不造成重碼的前提下，盡量采用新中國字體。

3.對於超出CJK漢字識別規則，或識別規則尚未明確規定的漢字，暫時將舊字形放在GBK碼上。這樣，在很多情況下，GBK吸收了同壹漢字的新舊字形。

4.非漢字符號的字形，已納入GB 2312，與GB 2312壹致；超出GB 2312的部分與GB 100038+0壹致。

5.帶聲調的拼音字母采取半字型的形式。

代碼GB 2312是中國漢字信息交換國家標準代碼。代碼的全稱是信息交換用基本字符集。標準編號為GB 2312-80 (GB是“國家標準”壹詞的漢語拼音縮寫)，由中華人民共和國標準總局發布，編號為198。習慣上稱為國家標準代碼、國家標準代碼或區號。這是壹個簡化的漢字編碼，在中國大陸很流行。新加坡等地也使用這個代碼。

GB 2312-80包含簡體漢字和通用符號、序號、數字、拉丁字母、日文假名、希臘字母、俄文字母、漢語音標和漢語拼音字母，共7445個圖形字符。其中漢字以外的圖形文字682個，漢字6763個。

GB 2312-80規定“任何圖形字符都用兩個字節表示。在GB 1988-80和GB 2311-80中，每個字節由七位代碼表示。兩個字節中的第壹個字節是第壹個字節，最後壹個字節是第二個字節。”傳統上，第壹個字節稱為“高字節”，第二個字節稱為“低字節”。

GB 2312-80將碼表分為94段，對應第壹個字節；每個區域有94個位置，對應第二個字節。兩個字節的值分別是區號值和位置號碼值加上32(20H)。

根據GB 2312-80，01 ~ 09區(原為1 ~ 9區，為方便區號，現更名為01 ~ 09區)為符號和數字區，16 ~ 87區為漢字區。10 ~ 15、88 ~ 94區域為“空白區域”，有待進壹步規範。但10區建議與3區94個圖形字符相同(即GB 1988-80中的94個圖形字符)，字體寬度為其寬度的壹半。

GB 2312-80將收集到的漢字分為兩個層次。壹級漢字為常用漢字，共3755個，放在16 ~ 55區域，按漢語拼音字母/筆畫形狀順序排列；二級漢字為次常用漢字，3008個字，放在56 ~ 87個區域，按部首/筆畫順序排列。字的讀音以《普通話異讀字三級讀音檢查總表》(1963出版)初稿為準，字體以中華人民共和國、文化部、中國語言文字改革委員會出版的《印刷通用漢字字形表》(1964出版)為準。