文字是各種文字和符號的總稱,包括國家文字、標點符號、圖形符號、數字等。字符集是多個字符的集合。
字符集有很多種,每個字符集包含不同數量的字符。常見的字符集名稱有ASCII、GB2312、BIG5、GB18030、Unicode等。
為了準確處理各種字符集,計算機需要對字符進行編碼,以便計算機能夠識別和存儲各種字符。漢字數量眾多,分為簡體中文和繁體中文,書寫規則不同。計算機最初是根據英語單字節字符設計的。因此,漢字編碼是中文信息交換的技術基礎。
GB2312又稱GB2312-80字符集,全稱為《信息交換用漢字編碼基本集》,由原國家標準總局發布,於2005年5月1981日實施。
GB18030的全稱是GB18030-2000《信息交換用漢字編碼字符集基本集擴展》,是中國政府於2000年3月6日發布的漢字編碼新國家標準。2006年8月31日之後在中國市場發布的軟件必須符合該標準。
GB2312和GB18030的特性:
GB2312是中國國家標準的簡體中文字符集。其漢字已覆蓋99.75%的使用頻率,基本滿足了計算機處理漢字的需要。它在中國大陸和新加坡被廣泛使用。
GB2312包含簡體漢字和通用符號、序號、數字、拉丁字母、日語假名、希臘字母、俄語字母、漢語音標和漢語拼音字母,共7445個圖形字符。
包括漢字6763個,其中壹級漢字3755個,二級漢字3008個;包括拉丁字母、希臘字母、日語平假名和片假名字母以及俄語西裏爾字母。
經過廣泛參與和論證,GB18030字符集標準由國內外知名信息技術公司、信息產業部和原國家質量技術監督局共同實施。
GB18030字符集標準解決了由漢字、日文假名、朝鮮語和中國少數民族語言組成的大字符集的計算機編碼問題。該標準的總編碼空間超過654.38+0.5百萬碼位,包括27484個漢字,涵蓋中文、日文、韓文和中國少數民族語言。
它符合中國大陸、香港、臺灣省、日本和韓國的多語言、大字符、多用途和統壹編碼格式的信息交換要求。並且兼容Unicode 3.0版本,填補了Unicode擴展字符詞匯表“統壹漢字擴展A”的內容。並且兼容以前的國家字符編碼標準(GB2312、GB13000.1)。