近代編纂的詞典字數更高,如清代《康熙字典》有47035字。臺灣省的《漢語大詞典》有49905個字;大陸的漢語詞典有54678個單詞;最新的中文單詞Sea包含85568個單詞,包括《漢語大詞典》、《漢語大詞典》、《康熙字典》和《說文解字》中的所有單詞。日本的《大漢和詞典》有48902個單詞,有1062個附錄。21世紀,日語《今昔話鏡》的字數最多,為17萬字。
20世紀出現了第壹批簡體字,隨後出現了第二批“二簡字”,其中包括社會上的許多人造字。不過,這兩個簡體字已被內地有關部門廢除,只有少數數字在社會上流行,但目前不納入計算機編碼。
在漢字的計算機編碼標準中,目前最大的漢字編碼是臺灣省的國家標準CNS11643。目前,(4.0)* *包含76,067個可驗證的日文、日文和韓文漢字,在戶政系統等官方機構中廣泛使用。臺灣省、香港、澳門等地區有13053個繁體字的大五碼。GB 18030是中華人民共和國最新的內碼字符集,共有70244個漢字。GBK包含20912個簡體漢字、繁體漢字和日韓漢字,而早期的GB 2312包含6763個簡體漢字。Unicode統壹表意基本字符集包含20,902個漢字,並有四個擴展區,共70,000多個字符。
早期的漢字系統,字數不足,很多東西都是用通假字來表示的,這就造成了文字表達的模糊性。為了提高表達的清晰度,漢字經歷了壹個逐漸復雜化和字數大量增加的階段。過去對漢字基本要素(上面提到的偏旁部首)的研究和教學比較落後,導致壹個字壹個字學起來比較困難。漢字越多,越難學。形成新詞的風氣越來越保守,也沒有相應的信息處理技術。所以很多單壹的漢語意思都是用詞來表達的,比如常見的雙拼詞。因此,現代寫作的發展傾向於創造新詞而不是新詞。
漢字位置(或“語素”和“字的類型”)是指同壹字的不同書寫方法(繁體字、簡體字、簡體字、楷體字、異體字、新字形、舊字形、錯別字、漏字等)的計算。)視為同壹個單詞,而不是不同的單詞。例如,“夠”和“夠”被視為同壹漢字的不同語素,而不是兩個漢字。這種計算方法類似於英語中的計算方法。A和A的寫法不同,但只有壹個字母。英語有26個字母,而不是52個。
據統計,中國漢字的數量約為26500個。後來,越來越多的單詞被收錄在詞典中。事實上,添加的大多數單詞是語素而不是詞素。《康熙字典》有42174個單詞,僅比中華海茲的85568個單詞少約1000個單詞。