2001年9月,新華社公布了最新的統計信息,目前漢字的總數已經超過了8萬,而常用的只有3500字。雖然常用字的數量沒有多少變化,而字庫總量卻變大了。近年出版的漢字字典收字總數從五萬多上升到八萬多,但歷代日常書面語常用的不同的漢字數量壹般都控制在三四千個,數量上並沒有超過最初的文字甲骨文。選取當代的常用字作為學習和使用漢字的重點,是歷代歷朝整理和教學漢字的壹個重要內容。歷史上的《三字經》《千字文》都是用當時的常用字編成的識字課本。
現代漢語用字也符合這壹規律。據統計,葉聖陶的小說《倪煥之》,全書138330字,只用了3039個不同的漢字;老舍的小說《駱駝祥子》,全書107360字,只用了2413個不同的漢字;《毛澤東選集》(1~4卷)全書659928字,只用了2981個不同的漢字。可見,使用頻率高的常用字是客觀存在的。它們是學習和使用漢字時應該關註的重點。)
有“總匯漢字之大成”評價的《康熙字典》,在書後附有《補遺》,“盡收冷僻字,再附《備考》,收有音無義或音義全無之字”,收錄的漢字是4萬多個。1994年出版的《中華字海》收入了87019個漢字,而已經通過專家鑒定的北京國安咨詢設備公司的漢字字庫,收入有出處的漢字91251個,據稱是目前全國最全的字庫。與龐大的漢字庫形成鮮明對照的是,歷代日常書面語常用的不同的漢字數量壹般都控制在三四千個。數量上並沒有超過最初的文字甲骨文。國家在1988年公布的《現代漢語常用字表》選收了2500個常用字、1000個次常用字,總***只有3500字。
生僻字逐漸淘汰
國家語言文字工作委員會語言文字應用研究所前副所長紀恒銓認為,壹個國家的文字總量有增有減,但基本字的數量則比較固定。漢字有很多,可以分做很多層面。我國常用漢字有2500多個,只要掌握了它們,就可以熟練閱讀現代漢語書面語了。《毛澤東選集》5卷本,使用的不同漢字也不過2000多個。小學語文大綱規定學生應該認識3000個漢字,如果掌握了1800多個漢字,也就可以“脫盲”了。計算機字庫中的漢字總量也不過有2萬多個。王永民在研究“五筆字型輸入法”時,將《現代漢語詞典》上的1.2萬多個漢字逐個分解並歸並出數百字根,然後再與計算機相關的按鍵連起來,這已經基本滿足了日常需要。
紀恒銓說,文字是歷史文化的載體,傳達著壹定的信息,不同社會階段文字使用特點也不同。隨著社會發展,壹些文字就被逐漸淘汰了。從現代漢語角度,人們傳情達意需要更簡便的方式,“4萬甚至9萬多漢字,恐怕許多人壹輩子也記不完。漢字中的生僻字很多,即使自己記住了,如果交流時對方不懂,還是沒用”。許多生僻字就這樣逐漸被淘汰出常用字。推廣使用規範漢字,可以減少不必要的交流障礙,還能大幅度地減少學習讀寫、印刷排版和電腦漢字內存的負擔。
9萬漢字從哪來
漢字已有五千年的歷史。早在新石器時代晚期的彩陶上,就出現圖畫和符號,它就是漢字的前身。現在所能看到的最早成熟漢字,是商朝刻於獸骨和龜甲上的甲骨文。當時已使用單字4600多個。
隨著社會的發展,為了表現新的事物,語言也在發展,9萬漢字的背後是社會生活的不斷進步,由於我國文字積澱的歷史長,這些字就構成了漢字庫的主體,主要體現在包括國家編撰的《說文解字》、《康熙字典》、《漢語大字典》、《中華字海》的收字上。在語言文字本身的發展過程中,不可避免地還出現了大批的異體字和不規範字,就像孔乙己曾經堅持“茴”字有四種寫法壹樣,漢字中的異體字是漢字家族日益壯大的壹個重要原因。在50年代,國家曾經做過壹個異體字整理表,然而工作還未結束,隨著漢語拼音化方案的提出,這項工作沒有進行到底。中國社會科學院研究生院語言系教授晁繼周先生這樣解釋。
隨著與外界接觸擴大,壹些外來詞語開始進入我國的語言體系中,如沙發、經濟、迷妳裙等。漢字體系裏外來字也有,但數量特別少。大家常說“二○○八年”,很少說“二零零八年”,“○”與橫豎撇捺為構字元素的漢字顯然不同,它來自於阿拉伯字系。另外還有壹些國家,比如韓國、日本等國家過去使用的都是漢字,後來又用漢字的偏旁部首造了壹些新的字,前者還是漢字字系,也會被收到漢字字庫裏來。這些字屬於國際標準的字符集漢字,也是數目龐大的漢字字庫的壹部分。現在的字庫整理,壹般還會把新加坡、越南、馬來西亞等周邊國家裏的漢字收錄入內。
同時字庫還會收集上述字集、字典、字書所不能包括的古今姓氏、地名用字。劉先生認為,由於我國人口多、面積大,許多地方字、方言字、姓名用字也是漢字庫的壹個組成部分,早就有人把這些字編纂成字典,包括臺灣香港在內,已經有大約40余本地方字字典分冊被整理出來。如澳門有壹個氹(dàng)仔島。現在許多人洗完頭發,愛用水固定發型,“喱水”是香港用語,後來大家也逐漸接受了。
統計漢字做什麽
據中國社會科學院語言研究所研究員、參與了《新華字典》和《現代漢語詞典》編纂工作的劉慶隆先生介紹,做這樣壹個大的字庫收集整理工作,不但備查備用,還可供國內兩岸四地及國外進行漢字文本印刷、古籍整理、辭書編寫、漢字整理和研究使用,而且為人名名錄及證件制作、中國地圖地名標註提供了水平很高的字庫工具。90年代初,國家制作過壹個包含20902個字的國家標準字庫表,但在使用過程中發現這個字表還遠不足使用,目前補充工作正在開展中。
整理漢字庫的原因,劉慶隆認為壹是適應國際上要求建立國際字標的需要,做成壹個國際通用的字庫以方便國際文字的交流,目前國際ISO國標委員會正在收集各國文字;二是適應計算機輸入法的發展、擴大計算機字庫的需要。目前信息產業部的計算機標準化研究所也正在進行漢字字庫的統計整理工作,已經整理出來近7萬字;第三,漢字發展過程中的字體變形使得壹些字看起來已經不像漢字,需要整理以便統壹。
天底下到底有多少漢字?這個問題恐怕壹時誰也難以說清。
最早的字書是東漢許慎編撰的《說文解字》,***收漢字9353個,《說文解字》的出現,使漢字書寫有了統壹的標準和規範,許慎因此被歷代學者尊為“字聖”。
南北朝時期,南梁顧野王編撰的《玉篇》,收字16917字,這部書在唐代、宋代時修訂,收字增至22726個。宋代丁度等編纂的《廣韻》,收字達53525個,是古代收漢字最多的字典。清代張玉書奉詔編纂的《康熙字典》,收字達47035個,辛亥革命後,歐陽溥存等編的《中華大字典》,收入漢字達到48000多個。
近年來出版的《漢語大字典》,***收錄漢字56000多字,是迄今為止收錄漢字最多的字典。 而新近編纂完成的《中華字海》則告訴人們,漢字總***近9萬。該書以收入字頭8.6萬而被大眾傳媒稱為創了新的世界之最。