因為漢字是壹個開放的集合,數字並不準確,日常生活中使用的漢字數量大概有幾千個。漢代許慎在《說文解字》中第壹次統計了漢字的數量,* * *收錄了9353個字。後來南朝顧寫的玉片,記載為16917字,在此基礎上修訂的《大廣益會》玉片,據說有22726字。之後,宋代官方編輯的《類篇》收了31319字。另壹部由宋代官方編著的《紀昀》收字53525字,曾是收字最多的壹部書。
近代編纂的詞典,字數更高,如清代的《康熙字典》,有47035字。臺灣省的《漢語大詞典》有49905個詞;大陸的漢語詞典有54678個字;最新的中文單詞Sea包含85568個單詞,包括《漢語大詞典》、《漢語大詞典》、《康熙字典》、《說文解字》中的所有單詞。日本《大漢和詞典》有48902個字,附錄有1062個。21世紀日本的《今昔話鏡》字數最多,為1.5萬字。
本世紀創造了第壹批簡化字和隨後的第二批“兩個簡化字”,包括社會上的許多人造字。但這兩種簡化字已被內地有關部門廢除,社會上只流行少數數字,但目前不納入計算機編碼。
在漢字計算機編碼標準中,目前最大的漢字編碼是臺灣省的國家標準CNS11643。目前,(4.0)***收錄了76067個可驗證的日文、日文、韓文漢字,廣泛應用於戶政系統等官方機構。臺灣省、香港、澳門等地區在大五碼中有13053個正字法漢字。GB 18030是中華人民共和國最新的內碼字符集。GBK包含20912個簡化字、繁體字、日文和韓文,而更早的GB 2312包含6763個簡化字。Unicode統壹表意基本字符集包含20,902個漢字,有兩個擴展區,共70,000多個字符。
早期的漢字系統,字數不足,很多東西都是用通假字來表示,這就造成了文字表達的模糊性。為了提高表達的清晰度,漢字經歷了壹個逐漸復雜、字數大量增加的階段。過去對漢字基本要素(上述偏旁部首)的研究和教學比較落後,很難做到壹個字壹個字地學。漢字越多,越難學。形成新詞的風氣越來越保守,沒有相應的信息處理技術。所以很多單壹的漢語意思都是用詞來表達的,比如常見的雙拼詞。因此,現代文字的發展趨向於創造新詞而不是新詞。