1、大字符集。基本集(GB2312-80)6763個漢字,港臺地區使用的繁體漢字13053個,CJK***20902個漢字。要實現全漢字的信息處理目標,單是字庫的研制就任重道遠;
2、編碼方案眾多。要使用字母數字鍵盤對漢語信息進行輸入就要對漢語漢字進行編碼。由於漢語漢字是音形義的結合體,采用不同的信息載體進行編碼就會有不同編碼方案和編碼規則。因此無論是從使用者的角度還是編碼的角度都會面臨很多困難;
3、形體多樣,結構復雜。漢語漢字是壹個獨立的二維拓撲圖形。五種基本筆畫存在很多筆形變體,漢字的結構層疊錯落,筆畫、字根、字元、部首、部件、偏旁等仁者見仁智者見智,給字庫研制和字形標準化帶來很多困難;
4、漢語方言分歧嚴重。漢語有七大方言區,每壹方言區又有次方言區,次方言區又分為不同的方言點,普通話的普及及應用遠未達到語音識別、人機對話所要求的規範化和標準化得程度,方言語音分歧成為語音信息處理的瓶頸;
擴展資料:
中文信息處理範疇
基礎研究:漢字字頻統計、詞頻統計、漢語自動分詞、句法屬性研究、漢字編碼字符集、通用漢字樣本庫、漢字屬性字典、語料庫等 輸入技術:中文輸入法、中文手寫輸入、中文語音輸入、文字識別等
輸出技術:漢字字模技術(字型庫)、漢字激光照排、漢語語音合成等
存儲技術:漢字庫標準等
轉換技術:繁簡轉換等
信息處理:中文情報檢索、中文文本校對、機器翻譯、自然語言理解、中文人機界面等