在20世紀90年代初期,當中國內地的電子郵件和轉碼軟件還未普遍之時,在深圳的港商和臺商公司亦曾經使用Big5系統,以方便與總部的文件交流、以及避免為內地的辦公室再寫壹套不同內碼的系統。現在,除了臺灣外,其他使用繁體漢字的地區,如香港、澳門,及使用繁體漢字的海外華人,都普遍使用Big5碼。這已經成為繁體中文顯示的標準格式。
Big5延伸
非官方Big5延伸
由於Big5碼內的萬多個字,只是根據臺灣地區“教育部”頒布的《常用國字標準字體表》、《次常用國字標準字體表》等用字匯編而成,並沒有考慮社會上流通的人名、地名用字、方言用字、化學及生物專業等用字,亦沒有放入日語平假名及片假名字母。所以在市面上支援Big5碼的軟件,有不少都自行在原本的編碼外,添加壹些符號及用字。
倚天Big5延伸
在倚天中文系統中,為與IBM5550碼相容,他們在Big5碼添加了以下的字符:
● 在0xA3C0-0xA3E0,添加了33個控制字符的圖象。
● 罕用符號區。在0xC6A1-0xC875,添加了圓形1-10、括號1-10、小羅馬字i-ix等章節符號、壹些部首及筆劃結構,日語平假名、片假名及俄語使用的西裏爾字母。
● 在0xF9D6-0xF9FE,添加了7個倚天擴充字:碁、銹、恒、裏、墻、粧、嫺和34個表格符號。
這個延伸有時被稱為Big5-Eten。由於倚天中文系統是Windows 95推出之前市場占有率最高的中文系統,此延伸是各種非官方延伸當中最重要的壹個。
在後期版本的倚天中文系統中,更加入了壹些圖案和簡體中文字,但未被廣泛接受。
Code Page 950Windows使用的 Code Page 950 (系引用IBM Big 5碼的編碼頁號Code Page 950,簡稱 CP950) 之中,只添加了上述0xF9D6-0xF9FE的倚天擴充字及表格符號,並沒有加入日文假名字母等其他延伸。
在Windows ME之中,微軟首度在0xA3E1加入了歐元(?符號,之後所有 Windows 版本的 Code Page 950 也都有這個符號。
中國海字集“中國海字集”是中國海公司所出品的繁體漢字造字檔。由於它包括了不少社會上常見的用字、日文假名、和字等,加上曾與Office 97中文版壹並發售,所以比起其他官方Big5延伸,更被臺灣民眾所接受。香港部份BBS網絡在香港增補字符集未出現之前,壹度以中國海字集為標準。
日和字集“日和字集”乃壹香港個人開發的造字檔,以兼容香港增補字符集為賣點,為字集中仍沒函蓋的日本漢字和日該國字作增補,並附有倉頡、速成等輸入法作輔助。
Unicode補完計劃“Unicode補完計劃”前稱“BIG5 Extension”,通過修改Microsoft Windows及Mozilla的編碼表,從而用戶能在網上傳遞及交換文字。有鑒於“中國海字集”的成功,“Unicode補完計劃”第二版采用了“中國海字集”原有的造字,再加上“中國海字集”所欠的部分簡體中文字及香港粵語用字,建成壹個能在Big5及Unicode之間轉換的編碼表;該計劃目前已推出了64位測試版。
官方Big5延伸
臺灣“教育部”造字檔
臺灣當局“教育部”有它本身的壹套造字檔,主要給部門內使用,亦有於“教育部”的網上字典使用。
臺灣“農委會”常用中文外字集
臺灣當局“農業委員會”制定了壹套有133個漢字的造字檔,其中有84個是魚字部漢字、7個是鳥字部漢字。
Big5+
中文數位化技術推廣委員會(中推會)在1997年推出Big5+,使用了兩萬多碼位,納入了Unicode 1.1下所有漢字。由於編碼使用到的範圍超過原先Big5定義(Big5+使用了高字節0x81-0xFE,低字節0x40-0x7E、0x80-0xFE),無法安裝在Microsoft Windows上,現幾乎無人使用。
Big-5E
為了使Microsoft Windows使用者可以使用造字檔,“行政院”委托中推會再次推出壹個補充字集Big-5E(與Big5+並不兼容),***收3954字。它把Big5+不少漢字都去掉,更甚者放棄了倚天延伸字集的假名部分。於是,除了部分被強制使用的當局行政單位外,沒有多少人願意使用Big5E。
Big5-2003
鑒於Big5不是壹個官方標準,中推會決定編制壹個Big5的定義,並把它放到官方編碼CNS 11643的附錄裏,正式成為官方標準的壹部分。在Big5-2003之中,收錄了所有在1984年Big5編碼的所有字符,Big5-2003沒有收錄行列輸入法特殊符號及0xC7F3-0xC875的俄語西裏爾字母,理由是以CNS 11643沒有這些字符。除此之外,所有倚天延伸全部收錄。相對於Big5-2003,最早沒有加上任何延伸的Big5則被稱為Big5-1984。
香港增補字符集
香港增補字符集:是香港政府基於繁體中文電腦操作環境中最流行的大五碼(Big-5)之上擴展的字符集標準,是現時香港的中文資訊交換內碼標準。香港增補字符集以前稱為《政府通用字庫》(GovernmentCommonCharacterSet,簡稱GCCS),本來只是香港政府內部統壹使用的造字檔,有三千多字。但由於香港電腦業界不斷要求政府迎合本地需要,提出官方的字符集方案,以便與政府進行文件來往,於是香港政府便在1995年把這個內部使用的標準公開。到了1999年,此字集增加到四千多字,並改為現名。此字符集由中文界面咨詢委員會管理,仍在不斷擴編之中。最新版本為2005年5月推出的HKSCS-2004,收錄4,941個字符。
字符分類:在HKSCS-2004版本,漢字字符***4500個,其中3353字可在大型的字典(如《漢語大字典》)中查到,包括簡化字、異體字、日語漢字等。其余在各大中文字典中查不到的字中,有粵語方言字(有些可在方言字典及學術著作中查到)、人名、公司名、地方名、變形部首、附形、訛字。有些字來自入境事務處、公司註冊處、稅務局、地政總署。
早期的倚天中文系統、國喬中文系統等對造字缺乏管理,而又沒有文字專家的審定,因此當時造字很是混亂,有些甚至可能只是臨時使用的“錯字”(尋遍各大字典、專書也查不到的字,也作幽靈漢字);又有同壹字有系統區及造字區兩個碼位,有些聯綿詞只收其壹不收其二;這個問題帶到了政府通用字庫和香港增補字符集中,字集因要反向兼容而跳過了壹些碼位。
各類符號***441個,有漢字筆形、漢語拼音字母、國際音標符號、漢字符件、畫表符號、日本平假名、片假名等。
香港增補字符集在2005年才有畫數、部首、粵音等資料給用戶參考,還說明方便檢索,而非作為規範標準。(漢字的部首在不同的字典中,歸部也不盡相同)
編碼和Big-5的關系:香港增補字符集當初因為是補充Big-5的收字不足,使用其外字區而發展的,所以受制於Big-5的編碼架構,外字的總數最多只能到6217個(每區塊157字,有39區塊半)。除去已用碼位,剩下千余個碼位,其中有部分會保留給用戶造字。
Big-5原來的編碼,只有漢字、標點、註音符號等字符及少數圖形,後來經過臺灣廠商的增收,多了7個“倚天字”(即碁、銹、裏、墻、恒、粧、嫺)及日文的假名,最後這批字符又被香港增補字符集收入。
香港增補字符集所使用的Big-5的外字區分幾個區段:
“造字區壹”(FA40—FEFE):早期的GCCS字符集已經填滿這壹段。
“造字區二”(C6A1—C8FE):倚天用了這段來放日文假名等符號。這些符號在HKSCS1999年的版本被收納。
“造字區三”(8140—A0FE):香港增補字符集把這段開頭的(8140—84FE)保留給用戶,新增的字符只用其余的碼位。“廠商造字區”(F9D6—F9FE):這段開始的七個碼位用來存放裏、恒等“倚天字”,之後的碼位被微軟的繁體中文Windows用來存放制表符號。後來HKSCS1999年版本將之全部收納。
可是壹般提及HKSCS的文件,包括來自香港政府的,都沒有註明HKSCS以外的壹般繁體字編碼(即是Big-5本身)使用哪個版本。Big-5在2003年前就只有壹個版本,不會造成混淆,但HKSCS-2004的文件仍沒有指定Big-5部份是2003年之後還是之前的版本,雖然到目前為止並沒有任何系統使用Big5-2003。