計算機處理漢字的編碼形式是什麽？

什麽是Unicode？

歷史上，有兩次獨立的嘗試來創建壹個單獨的字符集。壹個是國際標準化組織(ISO)的ISO 10646項目，另壹個是由壹個多語言軟件制造商協會(起初大多是美國人)組織的Unicode項目。幸運的是，在1991左右，兩個項目的參與者都意識到，世界不需要兩個不同的單個字符集。他們結合他們的工作成果，共同創建壹個單壹的代碼表。這兩個項目仍然存在，並獨立發布自己的標準，但Unicode協會和ISO/IEC JTC1/SC2都同意保持Unicode和ISO 10646的碼表兼容，並密切調整任何未來的擴展。

Unicode與ISO 10646

Unicode協會發布的Unicode標準緊密包含了ISO 10646-1的基本多語言方面。在這兩個標準中，所有字符都處於相同的位置，並且具有相同的名稱。

Unicode標準定義了許多與字符相關的附加語義符號，壹般是實現高質量印刷出版系統的較好參考。Unicode詳細介紹了在某些語言(如阿拉伯語)中繪制表達式、處理雙向字符(如混合的拉丁語和希伯來語字符)、排序和比較字符串以及許多其他事情的算法。

另壹方面，ISO 10646標準就像眾所周知的ISO 8859標準壹樣，只是壹個簡單的字符集表。它指定了壹些與標準相關的術語，定義了壹些編碼別名，並包括規範，指定了如何使用UCS來連接其他ISO標準的實現。例如，ISO 6429和ISO 2022。其他的和ISO關系密切，比如ISO 14651，是關於UCS字符串排序的。

考慮到Unicode標準有壹個容易記住的名字，並且它存在於任何壹個好的書店的Addison-Wesley中，它只花費了ISO版本的壹小部分，並且包含了更多的輔助信息，所以它成為壹個應用廣泛得多的參考也就不足為奇了。然而，壹般認為，在某些方面，用於印刷ISO 10646-1標準的字體質量高於用於印刷Unicode 2.0的字體。專業字體設計者總是被建議執行這兩個標準。然而，在提供的壹些樣本字形中存在顯著的差異。羺O 10646-1標準也使用四種不同的樣式變體來顯示表意字符，如中文、日文和韓文(CJK)，而Unicode 2.0僅包含中文變體。這就導致了日本用戶無法接受Unicode的傳說，雖然這是錯誤的。

ASCⅱⅱ代碼

計算機采用二進制計數，為什麽能識別十進制數和各種字符、圖形？其實不管是數值數據還是文字、圖形等。，計算機內部采用編碼標準。可以通過編碼標準轉換成二進制數進行處理，計算機會對這些信息進行處理，然後轉換成可視信息進行顯示。常用的字符碼是ASCII碼，原本是美國的國家標準，在1967中被指定為國際標準。

ASCII碼由8位二進制數組成，其中最高位是奇偶校驗位，用於在傳輸過程中檢查數據的正確性。剩下的7個二進制數代表壹個字符，* * *有128個組合。比如回車的ASCII碼是0001101(13)，空格的ASCII碼是0100000(32)，“0”的ASCII碼是0110000(48)。

漢字編碼

壹種為漢字設計的代碼，易於輸入電腦。因為電子計算機現有的輸入鍵盤與英文打字機的鍵盤完全兼容。因此，如何輸入非拉丁字母(包括漢字)成為多年來的研究課題。

漢字信息處理系統壹般包括編碼、輸入、存儲、編輯、輸出和傳輸。編碼是關鍵。這個問題不解決，漢字就進不了電腦。

漢字有三種方式輸入電腦:

①漢字的機器自動識別:計算機通過“視覺”設備(光學字符閱讀器或其他)以光電掃描的方式識別漢字。

②通過語音識別輸入:計算機利用人提供的“聽覺器官”，自動識別漢語語音元素，從不同音節中找出不同的漢字，或者從同壹個音節中判斷出不同的漢字。

③漢字編碼輸入:按照壹定的編碼方法，由人借助輸入設備將漢字輸入計算機。

國內外都在研究漢字的機器自動識別和漢語語音識別。雖然已經取得了很多進展，但由於難度很大，預計還需要相當壹段時間才能解決。在現階段，通過漢字編碼的方法使漢字進入計算機是比較現實的。

漢字編碼困難漢字輸入電腦有很多困難，主要有三個原因:

①數量龐大:隨著社會的發展，新詞不斷出現，死詞不淘汰，漢字總數不斷增加。壹般認為，現在漢字總數已經超過6萬個(包括簡化字)。雖然有研究者主張用3000或4000個以上的字作為當代常用漢字，但這仍然比處理二三十個字母組成的拼音字困難得多。

(2)字體復雜:有古今體、繁簡體、正形體；而且筆畫差別很大，從1筆到36筆，簡化後平均9.8筆。

③復音詞和多音節詞數量較多:漢語有465，438+06個音節，分聲調後有65，438+0295個音節(根據《現代漢語詞典》，39個音節不算)。以654.38+00000個漢字為基準，每個不帶聲調的音節平均有24個以上的漢字，每個帶聲調的音節平均有7.7個以上的漢字。有些同音字多達66個字。復音現象也很普遍。

據粗略統計，共有400多種編碼方案，其中有幾十種已在計算機上通過測試，並被采用為輸入法。總結起來，只有五種類型:

①整字輸入法:前壹階段，常用的三四千個漢字壹般排列在壹個三四百鍵的大鍵盤上。最近這些漢字大多是按照XY坐標排列在壹個字表上，通常稱為“字表法”或“筆畫字表法”比如X25行Y90列交叉的字就是“國”。當電筆指向字表上的“國”字時，機器自動輸入該字的代碼2590。鍵盤上或單詞列表中單詞按部首、按語音順序或按詞義聯想排列。異常單詞被視為磁盤外單詞或表外單詞，並被單獨編碼。

(2)字體分解法:將漢字分解成筆畫或部件，按壹定順序輸入機器。壹般來說，筆畫可分為八種:橫(1)、豎(2)、左(3)、點(3)、彎(4)、叉(10)、方(口)。壹般有壹兩百個組件。因為壹般的鍵盤上只有42個鍵(包括數字和標點)，所以容納不下這麽多零件，有人設計鍵盤，有人利用零件出現概率的異同，將100多個零件分布在26個字母鍵上。

(3)以字形為主，讀音為輔的編碼方法:這種編碼方法與字形分解法的區別在於使用了壹些拼音信息。例如，為了簡化編碼規則，縮短碼長，有些方案在字形碼中加入音碼，為了采用標準的英文電傳打字機，有些方案通過關系詞的發音將分解的語素轉換成拉丁字母。

④全拼音輸入法:大部分是基於現有的漢語拼音方案設計的。關鍵問題是區分同音字，所以有的方案提出了“以字定字”的方法，有的方案提出了“拼音-漢字轉換”的方法，即“漢語拼音輸入-內部軟件轉換(實際上是查機器詞匯)-漢字輸出”的系統。

⑤以拼音為主，字形為輔的編碼方法:壹般在拼音碼之前或之後加壹些字形碼。拼音碼或者是現有的漢語拼音方案，或者是稍加簡化的方案，或者是“雙拼方案”或“雙拼方案”，其中聲母和韻母用單個字母或單個字符鍵表示，以便縮短碼長。比如F鍵既表示聲母F又表示韻母ang，按兩下就是方“方”。還有各種字體編碼來區分同音字。除了大部分使用偏旁部首的信息外，還有壹些使用首筆畫或語義類別的信息。

以上每種編碼方法都有自己的優缺點。比如單詞表法，特點是壹字壹格(鍵)，無重碼，直觀性好，操作簡單。缺點是需要專用鍵盤，速度慢。字體分解法的優點是按形取碼，不涉及字的讀音，所以不認識的字(包括生僻字和古字)也可以編碼輸入；但是漢字的物理結構非常復雜，書寫方法也有很多不同。分解標準不容易統壹，所以很多方案規則比較多。拼音輸入法(包括拼音-漢字轉換法)的優點是操作簡單，“盲打”，不受漢字簡化和字體變化的影響，符合拼音的方向，便於進壹步的信息處理；缺點是不能輸入生詞；另外，沒有字碼或詞的定義或明確的選擇，同音字很難處理。

漢語拼音雙軌制編碼得到推廣應用，逐漸過渡到漢字和漢語拼音文字並存使用，是壹種雙軌制。在漢字信息處理領域，音碼和形碼並存也是雙軌制。因此，許多人認為雙軌制是好的，原因有以下五點:

①對於掌握普通話的人來說，使用音碼比形碼更方便快捷。形碼雖然慢，但是可以輸入任何漢字(包括古文字)。雙軌制下，操作者認識的字符可以用聲音輸入，不認識的字符可以用聲音輸入，會說普通話的人可以用聲音輸入，口音重的人可以用聲音輸入。

(2)對於字數少的單位，註音輸入沒有問題，但是對於字數多的單位，註音輸入不如詞法輸入好，因為大部分人只會發壹些漢字的音。

③基於形狀的輸入(尤其是整體輸入)非常適合中文信息處理的壹些工作，比如統計漢字；但是對於其他種類的工作，比如漢語語音(音韻學)的統計，我們就無能為力了。按鍵音輸入則相反。這兩條軌道正好互補。

(4)有些形碼可以照顧到各種漢字(如日文、韓文)，而音碼可以分字合寫，便於進壹步的信息處理。

⑤適當的雙軌方案不會增加設備上的故障。如果不考慮整字輸入，壹般可以使用現有的小鍵盤。

除了從單軌發展到雙軌，漢字編碼的新發展還有以下趨勢:

①混合編碼法。在筆畫表示中加入壹些部件或字符，可以解決離盤字符的問題，甚至具有字體分解的所有優點。為了提高速度，筆畫方案壹般會增加壹些部件或整字。

②充分利用簡碼和詞法碼。這樣可以提高輸入速度。因此，人們為少數幾個字或使用頻率高的字設計了單字母和雙字母的簡碼。

詞法代碼也是提高速度的壹種手段。形狀編碼方案的詞匯編碼是根據每個字符的組成部分定義的。比如“漢字編碼”的詞匯碼是43，45，55，13。另壹種形式編碼方案的詞匯編碼由計算機指導輸入。比如輸入“中”字，按下字鍵時，屏幕上會顯示“中國”、“中”、“中性”、“中華”等雙音節字；選擇“中國”後，再按word鍵，會顯示“(中國)方言”、“中國(人民)”、“(中國)* * *生產黨”、“中國(工農紅軍)”等詞語或短語。音碼方案的詞匯碼實際上是短語碼，如ZRG“中華人民共和國”和ZZXY“中國中文信息研究會”。詞法碼不僅可以提高速度，還可以區分同碼。但如果用多了，也會產生重碼。所以要分通用詞匯碼和專業詞匯碼，減少重碼。

③充分發揮“計算機”的作用，盡量減輕“人腦”的負擔。上面的計算機引導的輸入法就是壹個例子。其他方案通過打開窗口不斷地為操作者提供選擇範圍。這樣，操作員就不必記憶大量的編碼規則。

編碼工作中的定型和標準化編碼方案，壹般稱為優化工作，對於計算機的推廣應用非常重要。當然，定型或者優化不是說只選壹個或者只選壹個，而是要照顧到多種用戶的需求。關於優中選優，提出了多種評價標準，壹般包括單詞歧義性、易操作、輸入處理效率高、節省存儲、傳輸可靠、設備經濟實用、單詞分組能力強等。

編碼方案很多，需要壹個統壹的標準。1981年，國家標準局公布了《信息交換用漢字編碼字符集基本集》(簡稱《漢字標準交換碼》)，將* * *分為兩級，壹級3755字，二級3008字，二級6763字。這種漢字標準交換碼是計算機的內碼，可以為各種輸入輸出設備的設計提供統壹的標準，使各系統之間的信息交換具有相同的壹致性，從而保證信息資源的享用。目前，信息交換用漢字編碼輔助集正在制定中，以滿足少數比基本集用字多的用戶和臺灣省、香港的需要。