Java規定了字符的內碼要用UTF-16編碼,壹個字符是2個字節。外碼字符所占字節取決於具體編碼。字符和字節是不壹樣的。
外碼編碼不同,字符和字節的換算不同,幾種常見的編碼換算如下:
ASCII編碼是單字節編碼,只有英文字符,不能編碼漢字。
GBK編碼1個英文字符是1個字節,壹個漢字是是2個字節。
UTF-8編碼1個英文字符是1個字節,壹個漢字是3個字節。
Unicode編碼1個英文字符是2個字節,壹個漢字是2個字節。
擴展資料:
漢字編碼的困難點 漢字進入計算機,有許多困難,其原因主要有三點:
①數量龐大:壹般認為,漢字總數已超過6萬個(包括簡化字)。雖有研究者主張規定3000多或4000字作為當代通用漢字,但仍比處理由二三十個字母組成的拼音文字要困難得多。
②字形復雜:有古體今體,繁體簡體,正體異體;而且筆畫相差懸殊,少的壹筆,多的達36筆,簡化後平均為9.8筆。
③存在大量壹音多字和壹字多音的現象:漢語音節416個,分聲調後為1295個(根據《現代漢語詞典》統計,輕聲39個未計)。以1萬個漢字計算,每個不帶調的音節平均超過24個漢字,每個帶調音節平均超過7.7個漢字。有的同音同調字多達66個。壹字多音現象也很普遍。
百度百科-編碼