由於外部代碼不同,字符和字節的轉換也不同。幾種常見代碼轉換如下:
ASCII編碼是單字節編碼,只有英文字符,沒有中文字符。
GBK編碼1英文字符是1字節,壹個中文字符是2字節。
UTF-8編碼1個英文字符是1個字節,壹個中文字符是3個字節。
Unicode編碼1英文字符為2字節,中文字符為2字節。
擴展數據:
漢字編碼困難漢字輸入電腦有很多困難,主要有三個原因:
①數量龐大:壹般認為漢字總數已超過6萬(含簡化字)。雖然有研究者主張用3000或4000個以上的字作為當代常用漢字,但這仍然比處理二三十個字母組成的拼音字困難得多。
(2)字體復雜:有古今體、繁簡體、正形體;而且筆畫差別很大,從1筆到36筆,簡化後平均9.8筆。
③復音詞和多音節詞數量較多:漢語有465,438+06個音節,分聲調後有65,438+0295個音節(根據《現代漢語詞典》,39個音節不算)。以654.38+00000個漢字為基準,每個不帶聲調的音節平均有24個以上的漢字,每個帶聲調的音節平均有7.7個以上的漢字。有些同音字多達66個字。復音現象也很普遍。
百度百科-編碼