當前位置:成語大全網 - 英語詞典 - 計算機處理漢字的編碼形式是什麽?

計算機處理漢字的編碼形式是什麽?

什麽是Unicode?

歷史上,有兩次獨立的嘗試來創建壹個單獨的字符集。壹個是國際標準化組織(ISO)的ISO 10646項目,另壹個是由壹個多語言軟件制造商協會(起初大多是美國人)組織的Unicode項目。幸運的是,在1991左右,兩個項目的參與者都意識到,世界不需要兩個不同的單個字符集。他們結合他們的工作成果,共同創建壹個單壹的代碼表。這兩個項目仍然存在,並獨立發布自己的標準,但Unicode協會和ISO/IEC JTC1/SC2都同意保持Unicode和ISO 10646的碼表兼容,並密切調整任何未來的擴展。

Unicode與ISO 10646

Unicode協會發布的Unicode標準緊密包含了ISO 10646-1的基本多語言方面。在這兩個標準中,所有字符都處於相同的位置,並且具有相同的名稱。

Unicode標準定義了許多與字符相關的附加語義符號,壹般是實現高質量印刷出版系統的較好參考。Unicode詳細介紹了在某些語言(如阿拉伯語)中繪制表達式、處理雙向字符(如混合的拉丁語和希伯來語字符)、排序和比較字符串以及許多其他事情的算法。

另壹方面,ISO 10646標準就像眾所周知的ISO 8859標準壹樣,只是壹個簡單的字符集表。它指定了壹些與標準相關的術語,定義了壹些編碼別名,並包括規範,指定了如何使用UCS來連接其他ISO標準的實現。例如,ISO 6429和ISO 2022。其他的和ISO關系密切,比如ISO 14651,是關於UCS字符串排序的。

考慮到Unicode標準有壹個容易記住的名字,並且它存在於任何壹個好的書店的Addison-Wesley中,它只花費了ISO版本的壹小部分,並且包含了更多的輔助信息,所以它成為壹個應用廣泛得多的參考也就不足為奇了。然而,壹般認為,在某些方面,用於印刷ISO 10646-1標準的字體質量高於用於印刷Unicode 2.0的字體。專業字體設計者總是被建議執行這兩個標準。然而,在提供的壹些樣本字形中存在顯著的差異。羺O 10646-1標準也使用四種不同的樣式變體來顯示表意字符,如中文、日文和韓文(CJK),而Unicode 2.0僅包含中文變體。這就導致了日本用戶無法接受Unicode的傳說,雖然這是錯誤的。

ASCⅱⅱ代碼

計算機采用二進制計數,為什麽能識別十進制數和各種字符、圖形?其實不管是數值數據還是文字、圖形等。,計算機內部采用編碼標準。可以通過編碼標準轉換成二進制數進行處理,計算機會對這些信息進行處理,然後轉換成可視信息進行顯示。常用的字符碼是ASCII碼,原本是美國的國家標準,在1967中被指定為國際標準。

ASCII碼由8位二進制數組成,其中最高位是奇偶校驗位,用於在傳輸過程中檢查數據的正確性。剩下的7個二進制數代表壹個字符,* * *有128個組合。比如回車的ASCII碼是0001101(13),空格的ASCII碼是0100000(32),“0”的ASCII碼是0110000(48)。

漢字編碼

壹種為漢字設計的代碼,易於輸入電腦。因為電子計算機現有的輸入鍵盤與英文打字機的鍵盤完全兼容。因此,如何輸入非拉丁字母(包括漢字)成為多年來的研究課題。

漢字信息處理系統壹般包括編碼、輸入、存儲、編輯、輸出和傳輸。編碼是關鍵。這個問題不解決,漢字就進不了電腦。

漢字有三種方式輸入電腦:

①漢字的機器自動識別:計算機通過“視覺”設備(光學字符閱讀器或其他)以光電掃描的方式識別漢字。

②通過語音識別輸入:計算機利用人提供的“聽覺器官”,自動識別漢語語音元素,從不同音節中找出不同的漢字,或者從同壹個音節中判斷出不同的漢字。

③漢字編碼輸入:按照壹定的編碼方法,由人借助輸入設備將漢字輸入計算機。

國內外都在研究漢字的機器自動識別和漢語語音識別。雖然已經取得了很多進展,但由於難度很大,預計還需要相當壹段時間才能解決。在現階段,通過漢字編碼的方法使漢字進入計算機是比較現實的。

漢字編碼困難漢字輸入電腦有很多困難,主要有三個原因:

①數量龐大:隨著社會的發展,新詞不斷出現,死詞不淘汰,漢字總數不斷增加。壹般認為,現在漢字總數已經超過6萬個(包括簡化字)。雖然有研究者主張用3000或4000個以上的字作為當代常用漢字,但這仍然比處理二三十個字母組成的拼音字困難得多。

(2)字體復雜:有古今體、繁簡體、正形體;而且筆畫差別很大,從1筆到36筆,簡化後平均9.8筆。

③復音詞和多音節詞數量較多:漢語有465,438+06個音節,分聲調後有65,438+0295個音節(根據《現代漢語詞典》,39個音節不算)。以654.38+00000個漢字為基準,每個不帶聲調的音節平均有24個以上的漢字,每個帶聲調的音節平均有7.7個以上的漢字。有些同音字多達66個字。復音現象也很普遍。

據粗略統計,共有400多種編碼方案,其中有幾十種已在計算機上通過測試,並被采用為輸入法。總結起來,只有五種類型:

①整字輸入法:前壹階段,常用的三四千個漢字壹般排列在壹個三四百鍵的大鍵盤上。最近這些漢字大多是按照XY坐標排列在壹個字表上,通常稱為“字表法”或“筆畫字表法”比如X25行Y90列交叉的字就是“國”。當電筆指向字表上的“國”字時,機器自動輸入該字的代碼2590。鍵盤上或單詞列表中單詞按部首、按語音順序或按詞義聯想排列。異常單詞被視為磁盤外單詞或表外單詞,並被單獨編碼。

(2)字體分解法:將漢字分解成筆畫或部件,按壹定順序輸入機器。壹般來說,筆畫可分為八種:橫(1)、豎(2)、左(3)、點(3)、彎(4)、叉(10)、方(口)。壹般有壹兩百個組件。因為壹般的鍵盤上只有42個鍵(包括數字和標點),所以容納不下這麽多零件,有人設計鍵盤,有人利用零件出現概率的異同,將100多個零件分布在26個字母鍵上。

(3)以字形為主,讀音為輔的編碼方法:這種編碼方法與字形分解法的區別在於使用了壹些拼音信息。例如,為了簡化編碼規則,縮短碼長,有些方案在字形碼中加入音碼,為了采用標準的英文電傳打字機,有些方案通過關系詞的發音將分解的語素轉換成拉丁字母。

④全拼音輸入法:大部分是基於現有的漢語拼音方案設計的。關鍵問題是區分同音字,所以有的方案提出了“以字定字”的方法,有的方案提出了“拼音-漢字轉換”的方法,即“漢語拼音輸入-內部軟件轉換(實際上是查機器詞匯)-漢字輸出”的系統。

⑤以拼音為主,字形為輔的編碼方法:壹般在拼音碼之前或之後加壹些字形碼。拼音碼或者是現有的漢語拼音方案,或者是稍加簡化的方案,或者是“雙拼方案”或“雙拼方案”,其中聲母和韻母用單個字母或單個字符鍵表示,以便縮短碼長。比如F鍵既表示聲母F又表示韻母ang,按兩下就是方“方”。還有各種字體編碼來區分同音字。除了大部分使用偏旁部首的信息外,還有壹些使用首筆畫或語義類別的信息。

以上每種編碼方法都有自己的優缺點。比如單詞表法,特點是壹字壹格(鍵),無重碼,直觀性好,操作簡單。缺點是需要專用鍵盤,速度慢。字體分解法的優點是按形取碼,不涉及字的讀音,所以不認識的字(包括生僻字和古字)也可以編碼輸入;但是漢字的物理結構非常復雜,書寫方法也有很多不同。分解標準不容易統壹,所以很多方案規則比較多。拼音輸入法(包括拼音-漢字轉換法)的優點是操作簡單,“盲打”,不受漢字簡化和字體變化的影響,符合拼音的方向,便於進壹步的信息處理;缺點是不能輸入生詞;另外,沒有字碼或詞的定義或明確的選擇,同音字很難處理。

漢語拼音雙軌制編碼得到推廣應用,逐漸過渡到漢字和漢語拼音文字並存使用,是壹種雙軌制。在漢字信息處理領域,音碼和形碼並存也是雙軌制。因此,許多人認為雙軌制是好的,原因有以下五點:

①對於掌握普通話的人來說,使用音碼比形碼更方便快捷。形碼雖然慢,但是可以輸入任何漢字(包括古文字)。雙軌制下,操作者認識的字符可以用聲音輸入,不認識的字符可以用聲音輸入,會說普通話的人可以用聲音輸入,口音重的人可以用聲音輸入。

(2)對於字數少的單位,註音輸入沒有問題,但是對於字數多的單位,註音輸入不如詞法輸入好,因為大部分人只會發壹些漢字的音。

③基於形狀的輸入(尤其是整體輸入)非常適合中文信息處理的壹些工作,比如統計漢字;但是對於其他種類的工作,比如漢語語音(音韻學)的統計,我們就無能為力了。按鍵音輸入則相反。這兩條軌道正好互補。

(4)有些形碼可以照顧到各種漢字(如日文、韓文),而音碼可以分字合寫,便於進壹步的信息處理。

⑤適當的雙軌方案不會增加設備上的故障。如果不考慮整字輸入,壹般可以使用現有的小鍵盤。

除了從單軌發展到雙軌,漢字編碼的新發展還有以下趨勢:

①混合編碼法。在筆畫表示中加入壹些部件或字符,可以解決離盤字符的問題,甚至具有字體分解的所有優點。為了提高速度,筆畫方案壹般會增加壹些部件或整字。

②充分利用簡碼和詞法碼。這樣可以提高輸入速度。因此,人們為少數幾個字或使用頻率高的字設計了單字母和雙字母的簡碼。

詞法代碼也是提高速度的壹種手段。形狀編碼方案的詞匯編碼是根據每個字符的組成部分定義的。比如“漢字編碼”的詞匯碼是43,45,55,13。另壹種形式編碼方案的詞匯編碼由計算機指導輸入。比如輸入“中”字,按下字鍵時,屏幕上會顯示“中國”、“中”、“中性”、“中華”等雙音節字;選擇“中國”後,再按word鍵,會顯示“(中國)方言”、“中國(人民)”、“(中國)* * *生產黨”、“中國(工農紅軍)”等詞語或短語。音碼方案的詞匯碼實際上是短語碼,如ZRG“中華人民共和國”和ZZXY“中國中文信息研究會”。詞法碼不僅可以提高速度,還可以區分同碼。但如果用多了,也會產生重碼。所以要分通用詞匯碼和專業詞匯碼,減少重碼。

③充分發揮“計算機”的作用,盡量減輕“人腦”的負擔。上面的計算機引導的輸入法就是壹個例子。其他方案通過打開窗口不斷地為操作者提供選擇範圍。這樣,操作員就不必記憶大量的編碼規則。

編碼工作中的定型和標準化編碼方案,壹般稱為優化工作,對於計算機的推廣應用非常重要。當然,定型或者優化不是說只選壹個或者只選壹個,而是要照顧到多種用戶的需求。關於優中選優,提出了多種評價標準,壹般包括單詞歧義性、易操作、輸入處理效率高、節省存儲、傳輸可靠、設備經濟實用、單詞分組能力強等。

編碼方案很多,需要壹個統壹的標準。1981年,國家標準局公布了《信息交換用漢字編碼字符集基本集》(簡稱《漢字標準交換碼》),將* * *分為兩級,壹級3755字,二級3008字,二級6763字。這種漢字標準交換碼是計算機的內碼,可以為各種輸入輸出設備的設計提供統壹的標準,使各系統之間的信息交換具有相同的壹致性,從而保證信息資源的享用。目前,信息交換用漢字編碼輔助集正在制定中,以滿足少數比基本集用字多的用戶和臺灣省、香港的需要。