字體技術(在屏幕和打印機上):位圖、矢量、TrueType、OpenType和其他輸入。
鍵盤:字體輸入:吳彼字體、倉頡(以及源自倉頡的簡約等。),快碼,Q9,縱橫等。
拼音輸入:漢語拼音、朱茵、香港拼音和其他方言拼音。
其他:混合字形和讀音,從英文翻譯成中文。
這是最關鍵的語言項目。如果漢字不能進入計算機,圖書情報工作的自動化、印刷出版的現代化、辦公事務的自動化都將成為空談。近10年來,漢字信息處理的研究有了很大發展。設計了400多種漢字編碼方案(見漢字編碼),其中幾十種已在計算機上通過測試或被采用為輸入法。已經開發了數百種漢字信息處理系統和設備。這些系統主要使用兩種鍵盤:壹種是帶筆畫的大鍵盤,壹種是小鍵盤。前者除了整體輸入外,壹般還具備漢字與部件結合的能力;後者中的壹些兼容多種編碼方案,壹些具有計算機指導的智能。
除了對漢字編碼的研究,漢字信息處理還做了幾種漢字輸入輸出的專用設備,包括各種類型的漢字輸入鍵盤、漢字字體、漢字顯示終端、漢字圖形兼容終端和漢字打印機。全套漢字信息處理系統(包括漢字編碼方法、通用中外文鍵盤、通用中外文顯示器、漢字打印設備、漢字數據庫和系統軟件等。)已研發成功,並已安排量產。壹種新的編輯排版系統——計算機激光漢字照排系統也研制成功。中國的字體生產有很好的基礎。1985年5月,國家標準局發布了《信息交換用漢字15×16點陣字模集和數據集》和《信息交換用漢字24×24點陣字模集和數據集》兩項標準,為各種設備的設計和推廣提供了有利條件。
為了使人們擺脫繁重的編碼輸入工作,漢字光電自動識別的研究被提上日程。近年來,越來越多的單位從事手寫和印刷體識別的研究。郵電部數據研究所和北京郵電學院提出了象限端點和轉動慣量特征識別方法,沈陽自動化研究所提出了文本線長識別方法,上海公用事業研究所開發了數字條識別系統,電子工業部第五十二研究所設計了壹種分割映射法提取漢字筆畫特征,清華大學開發了受限手寫漢字識別系統。
1981年,國家標準局出版了《信息交換用漢字編碼字符集基本集》(簡稱《漢字標準交換碼》),目的是使各系統之間的信息交換具有相同的特征,使各種輸入輸出設備的設計有統壹的依據。這個標準是根據漢字的使用頻率,* * *分為兩級,壹級3755字,二級3008字,二級6763字。為了滿足少數比基本集用字多的用戶和臺灣省、香港等地的需要,正在制定信息交換用漢字編碼字符集輔助集。輔助集將根據使用頻率分為第壹輔助集和第二輔助集,每個輔助集都在8000字以上。計算機和語言最早的結合是從機器翻譯開始的。從65438年到0956年,機器翻譯被列入我國科學工作的發展規劃。從65438到0957,機器翻譯的研究正式開始。這可以說是中文信息處理的第壹個項目。首先研究了俄漢機器翻譯,在1959測試成功。翻譯的輸出是代碼,不是漢字,因為當時沒有漢字輸出設備。從1958年底到1960年初,開發了壹套英漢機器翻譯規則系統。從1966到1975,工作處於停頓狀態。近年來,已經測試了十多個英漢、俄漢、法漢、日漢和外文(英、法、德、俄、日)的機器翻譯系統。有的輸出中文翻譯。有的輸出拼音翻譯。
語言對比研究是機器翻譯的語言學基礎。詞序調整是對外漢語機器翻譯系統的中心任務。要調整語序,首先要分清層次,確定軸線。為了調整語序,有些系統還建立了專門的構件系統,即中間構件系統。介詞、連詞和標點符號是機器翻譯研究中的難點,對它們的正確分析是解決語序調整問題的關鍵。當結構分析困難時,就需要語義分析。
影響機器翻譯發展的最大因素在於翻譯的質量。從取得的成績來看,機器翻譯的質量離理想目標還有很大差距。我國數學家、語言學家周海中教授曾在《機器翻譯五十年》壹文中指出:要提高機器翻譯的質量,首先要解決的是語言本身而不是編程問題;依靠幾個程序做壹個機器翻譯系統,當然不可能提高機器翻譯的質量。同時他也指出,在人類還沒有搞清楚人腦是如何對語言進行模糊識別和邏輯判斷的情況下,機器翻譯是不可能達到“信達雅”的水平的。為了給標引和檢索提供藍本,1979中國科學技術信息研究所編輯出版了10卷《中國主題詞表》。目前,我國已有數百家單位開展了電子計算機信息檢索的實驗研究,其中十幾家已進入SDI的應用階段。很多單位都在建立各種漢字文獻數據庫,同時也在考慮在線網絡的問題。
信息檢索系統的關鍵問題是信息檢索語言的建立(參見計算機信息檢索)。中文信息檢索系統除了壹般的詞匯語法問題,還有壹個特殊的問題就是分詞,因為檢索是基於詞(關鍵詞)的。
④語音統計:中國使用計算機進行語音統計是由機器翻譯開始的。1978期間,語言研究所和計算技術研究所合作研究了ECMT-78英漢機器翻譯系統,編制了排名統計程序,處理了部分外文資料和漢語拼音資料。1981年,北京語言學院等單位開始用計算機處理手工調查統計的詞匯。漢語詞匯的統計分析在1985中完成,在壹個52萬多字的漢語語料庫中統計出18177個不同的詞。這些詞的總出現次數為374,654次,單音節詞出現次數最多,雙音節詞“我們”出現次數最多。1986年6月完成《現代漢語頻率詞典》。1982年,北京航空航天學院等單位開始了更大規模的中文統計工作,詞頻和詞頻統計要在2000萬字的語料庫中進行。得到了壹些詞頻統計結果。從超過1977 ~ 1982的語料庫中統計出8969個不同的漢字,並提供了這些漢字按不同學科的26種使用頻率表。
慈海
由於自動分詞的問題還沒有解決,目前的詞頻統計都是基於人工調查統計或者人工分詞。
此外,中國文字改革委員會和武漢大學用計算機對《辭海》中的16000多個漢字進行了統計分析,研究漢字的結構特征。為了研究人名中漢字的使用情況,中國語言改革委員會和山西大學根據人口調查材料對人名進行了統計。在許多省份,“王”是最常見的姓氏,而福建省的“陳”和“林”是最常見的姓氏。拼音打字的任務早在1958就提出來了。1964年實現了“元音識別器”,實現了10左右的漢語口語數字識別機。而電子計算機鑒定的研究,始於1972。聲學研究所利用語音模式匹配方法實現了壹定範圍內的單呼語識別,正確率達到99.5%以上。哈工大用音素分析識別中文,正確率90%以上。
有些單位已經開展了漢語綜合的研究,目前還處於試驗階段。近日,清華大學自動化系試制成功壹臺會說話的漢語計算機,計算機中存儲了漢語元音等語言數據,計算機會根據拼音規則自動拼接合成語音。