漢字信息處理系統壹般包括編碼、輸入、存儲、編輯、輸出和傳輸。編碼是關鍵。這個問題不解決,漢字就進不了電腦。
漢字有三種方式輸入電腦:
①漢字的機器自動識別:計算機通過“視覺”設備(光學字符閱讀器或其他)以光電掃描的方式識別漢字。
②通過語音識別輸入:計算機利用人提供的“聽覺器官”,自動識別漢語語音元素,從不同音節中找出不同的漢字,或者從同壹個音節中判斷出不同的漢字。
③漢字編碼輸入:按照壹定的編碼方法,由人借助輸入設備將漢字輸入計算機。
國內外都在研究漢字的機器自動識別和漢語語音識別。雖然已經取得了很多進展,但由於難度很大,預計還需要相當壹段時間才能解決。在現階段,通過漢字編碼的方法使漢字進入計算機是比較現實的。
漢字編碼困難漢字輸入電腦有很多困難,主要有三個原因:
①數量龐大:隨著社會的發展,新詞不斷出現,死詞不淘汰,漢字總數不斷增加。壹般認為,現在漢字總數已經超過6萬個(包括簡化字)。雖然有研究者主張用3000或4000個以上的字作為當代常用漢字,但這仍然比處理二三十個字母組成的拼音字困難得多。
(2)字體復雜:有古今體、繁簡體、正形體;而且筆畫差別很大,從1筆到36筆,簡化後平均9.8筆。
③復音詞和多音節詞數量較多:漢語有465,438+06個音節,分聲調後有65,438+0295個音節(根據《現代漢語詞典》,39個音節不算)。以654.38+00000個漢字為基準,每個不帶聲調的音節平均有24個以上的漢字,每個帶聲調的音節平均有7.7個以上的漢字。有些同音字多達66個字。復音現象也很普遍。
據粗略統計,共有400多種編碼方案,其中有幾十種已在計算機上通過測試,並被采用為輸入法。總結起來,只有五種類型:
①整字輸入法:前壹階段,常用的三四千個漢字壹般排列在壹個三四百鍵的大鍵盤上。最近這些漢字大多是按照XY坐標排列在壹個字表上,通常稱為“字表法”或“筆畫字表法”比如X25行Y90列交叉的字就是“國”。當電筆指向字表上的“國”字時,機器自動輸入該字的代碼2590。鍵盤上或單詞列表中單詞按部首、按語音順序或按詞義聯想排列。異常單詞被視為磁盤外單詞或表外單詞,並被單獨編碼。
(2)字體分解法:將漢字分解成筆畫或部件,按壹定順序輸入機器。壹般來說,筆畫可分為八種:橫(1)、豎(2)、左(3)、點(3)、彎(4)、叉(10)、方(口)。壹般有壹兩百個組件。因為壹般的鍵盤上只有42個鍵(包括數字和標點),所以容納不下這麽多零件,有人設計鍵盤,有人利用零件出現概率的異同,將100多個零件分布在26個字母鍵上。
(3)以字形為主,讀音為輔的編碼方法:這種編碼方法與字形分解法的區別在於使用了壹些拼音信息。例如,為了簡化編碼規則,縮短碼長,有些方案在字形碼中加入音碼,為了采用標準的英文電傳打字機,有些方案通過關系詞的發音將分解的語素轉換成拉丁字母。
④全拼音輸入法:大部分是基於現有的漢語拼音方案設計的。關鍵問題是區分同音字,所以有的方案提出了“以字定字”的方法,有的方案提出了“拼音-漢字轉換”的方法,即“漢語拼音輸入-內部軟件轉換(實際上是查機器詞匯)-漢字輸出”的系統。
⑤以拼音為主,字形為輔的編碼方法:壹般在拼音碼之前或之後加壹些字形碼。拼音碼或者是現有的漢語拼音方案,或者是稍加簡化的方案,或者是“雙拼方案”或“雙拼方案”,其中聲母和韻母用單個字母或單個字符鍵表示,以便縮短碼長。比如F鍵既表示聲母F又表示韻母ang,按兩下就是方“方”。還有各種字體編碼來區分同音字。除了大部分使用偏旁部首的信息外,還有壹些使用首筆畫或語義類別的信息。
以上每種編碼方法都有自己的優缺點。比如單詞表法,特點是壹字壹格(鍵),無重碼,直觀性好,操作簡單。缺點是需要專用鍵盤,速度慢。字體分解法的優點是按形取碼,不涉及字的讀音,所以不認識的字(包括生僻字和古字)也可以編碼輸入;但是漢字的物理結構非常復雜,書寫方法也有很多不同。分解標準不容易統壹,所以很多方案規則比較多。拼音輸入法(包括拼音-漢字轉換法)的優點是操作簡單,“盲打”,不受漢字簡化和字體變化的影響,符合拼音的方向,便於進壹步的信息處理;缺點是不能輸入生詞;另外,沒有字碼或詞的定義或明確的選擇,同音字很難處理。
漢語拼音雙軌制編碼得到推廣應用,逐漸過渡到漢字和漢語拼音文字並存使用,是壹種雙軌制。在漢字信息處理領域,音碼和形碼並存也是雙軌制。因此,許多人認為雙軌制是好的,原因有以下五點:
①對於掌握普通話的人來說,使用音碼比形碼更方便快捷。形碼雖然慢,但是可以輸入任何漢字(包括古文字)。雙軌制下,操作者認識的字符可以用聲音輸入,不認識的字符可以用聲音輸入,會說普通話的人可以用聲音輸入,口音重的人可以用聲音輸入。
(2)對於字數少的單位,註音輸入沒有問題,但是對於字數多的單位,註音輸入不如詞法輸入好,因為大部分人只會發壹些漢字的音。
③基於形狀的輸入(尤其是整體輸入)非常適合中文信息處理的壹些工作,比如統計漢字;但是對於其他種類的工作,比如漢語語音(音韻學)的統計,我們就無能為力了。按鍵音輸入則相反。這兩條軌道正好互補。
(4)有些形碼可以照顧到各種漢字(如日文、韓文),而音碼可以分字合寫,便於進壹步的信息處理。
⑤適當的雙軌方案不會增加設備上的故障。如果不考慮整字輸入,壹般可以使用現有的小鍵盤。
除了從單軌發展到雙軌,漢字編碼的新發展還有以下趨勢:
①混合編碼法。在筆畫表示中加入壹些部件或字符,可以解決離盤字符的問題,甚至具有字體分解的所有優點。為了提高速度,筆畫方案壹般會增加壹些部件或整字。
②充分利用簡碼和詞法碼。這樣可以提高輸入速度。因此,人們為少數幾個字或使用頻率高的字設計了單字母和雙字母的簡碼。
詞法代碼也是提高速度的壹種手段。形狀編碼方案的詞匯編碼是根據每個字符的組成部分定義的。比如“漢字編碼”的詞匯碼是43,45,55,13。另壹種形式編碼方案的詞匯編碼由計算機指導輸入。比如輸入“中”字,按下字鍵時,屏幕上會顯示“中國”、“中”、“中性”、“中華”等雙音節字;選擇“中國”後,再按word鍵,會顯示“(中國)方言”、“中國(人民)”、“(中國)* * *生產黨”、“中國(工農紅軍)”等詞語或短語。音碼方案的詞匯碼實際上是短語碼,如ZRG“中華人民共和國”和ZZXY“中國中文信息研究會”。詞法碼不僅可以提高速度,還可以區分同碼。但如果用多了,也會產生重碼。所以要分通用詞匯碼和專業詞匯碼,減少重碼。
③充分發揮“計算機”的作用,盡量減輕“人腦”的負擔。上面的計算機引導的輸入法就是壹個例子。其他方案通過打開窗口不斷地為操作者提供選擇範圍。這樣,操作員就不必記憶大量的編碼規則。
編碼工作中的定型和標準化編碼方案,壹般稱為優化工作,對於計算機的推廣應用非常重要。當然,定型或者優化不是說只選壹個或者只選壹個,而是要照顧到多種用戶的需求。關於優中選優,提出了多種評價標準,壹般包括單詞歧義性、易操作、輸入處理效率高、節省存儲、傳輸可靠、設備經濟實用、單詞分組能力強等。
編碼方案很多,需要壹個統壹的標準。1981年,國家標準局公布了《信息交換用漢字編碼字符集基本集》(簡稱《漢字標準交換碼》),將* * *分為兩級,壹級3755字,二級3008字,二級6763字。這種漢字標準交換碼是計算機的內碼,可以為各種輸入輸出設備的設計提供統壹的標準,使各系統之間的信息交換具有相同的壹致性,從而保證信息資源的享用。目前,信息交換用漢字編碼輔助集正在制定中,以滿足少數比基本集用字多的用戶和臺灣省、香港的需要。