文本文檔的ANSI編碼與Unicode有什麽區別?
編碼指不同國家的語言在計算機中的壹種存儲和解釋規範 \x0d\ANSI與ASCII\x0d\\x0d\n最初,Internet上只有壹種字符集——ANSI的ASCII字符集(American Standard Code for Information Interchange, “美國信息交換標準碼),它使用7 bits來表示壹個字符,總***表示128個字符,後來IBM公司在此基礎上進行了擴展,用8bit來表示壹個字符,總***可以表示256個字符,充分利用了壹個字節所能表達的最大信息 \x0d\nANSI字符集:ASCII字符集,以及由此派生並兼容的字符集,如:GB2312,正式的名稱為MBCS(Multi-Byte Chactacter System,多字節字符系統),通常也稱為ANSI字符集。\x0d\\x0d\UNICODE與UTF8,UTF16\x0d\\x0d\n由於每種語言都制定了自己的字符集,導致最後存在的各種字符集實在太多,在國際交流中要經常轉換字符集非常不便。因此,產生了Unicode字符集,它固定使用16 bits(兩個字節)來表示壹個字符,***可以表示65536個字符 \x0d\n標準的Unicode稱為UTF-16(UTF:UCS Transformation Format )。後來為了雙字節的Unicode能夠在現存的處理單字節的系統上正確傳輸,出現了UTF-8,使用類似MBCS的方式對Unicode進行編碼。(Unicode字符集有多種編碼形式) \x0d\例如“連通”兩個字的Unicode標準編碼UTF-16 (big endian)為:DE 8F 1A 90 \x0d\而其UTF-8編碼為:E8 BF 9E E9 80 9A\x0d\\x0d\n當壹個軟件打開壹個文本時,它要做的第壹件事是決定這個文本究竟是使用哪種字符集的哪種編碼保存的。軟件壹般采用三種方式來決定文本的字符集和編碼: \x0d\檢測文件頭標識,提示用戶選擇,根據壹定的規則猜測 \x0d\最標準的途徑是檢測文本最開頭的幾個字節,開頭字節 Charset/encoding,如下表: \x0d\EF BB BF UTF-8 \x0d\FE FF UTF-16/UCS-2, little endian \x0d\FF FE UTF-16/UCS-2, big endian \x0d\FF FE 00 00 UTF-32/UCS-4, little endian. \x0d\00 00 FE FF UTF-32/UCS-4, big-endian.