《鄭碼》簡稱《字根通用碼》,是我國著名文字學家、享譽海內外的《英華大詞典》主編鄭易裏教授經半個世紀對漢字字形結構的研究,後期和鄭瓏高級工程師***同創造的重大科技成果。已獲中、美、英國專利授權,並通過國家級的鑒定。權威專家們確認《鄭碼》是國內最優秀的字形編碼系統。《鄭碼》規範、易學、快速、通用。用同壹編碼規則不但可以輸入2萬漢字,還可以輸入68000個和10萬個漢字。《鄭碼》曾榮獲北京國際發明金獎和最優秀發明大獎;榮獲第22屆日內瓦發明金獎。國家主管部門通過評比向國內外用戶廣泛推薦《鄭碼》。中國的中文之星等系統平臺選用《鄭碼》,美國Microsoft公司的Windows95/98/NT/2000/XP/Vista中文系統選用《鄭碼》,美國IBM公司的OS/2和JAVAOS等許多中文產品也都選用《鄭碼》。
《鄭碼》以單字輸入為基礎,詞語輸入為主導,用2-4個英文字母便能輸2字詞、多字詞和30個字以內的短語;在這種字詞交融輸入之下,輸入壹個漢字的平均碼長是1.8-1.9鍵之間。他備有兩個詞庫,分別收錄25000和50000條詞語。
《鄭碼》是壹種繁體字輸入法,也是壹種生僻字輸入法,當然它也是壹種常規輸入法。鄭碼可以打出國標擴充字庫(原來叫GBK字庫,後來發展為GB18030字庫)裏的2萬多個漢字,極大滿足了人們在日常生活、工作中使用漢字的需求。
在常規情況下,《鄭碼》輸入法可以打出GBK字庫裏的20902個漢字。比普通《五筆字型》能打出的6763個漢字要多打出14139個漢字。正因為這個原因Windows沒有預裝《五筆》,而是預裝了《鄭碼》輸入法。
基根位碼的確定
每壹根區裏都有幾個基根,它們的區碼都相同,在它們單獨成字或與其它基根組合成字時,會產生許多重碼字。為解決這壹問題,《鄭碼》規定:第壹主根的代碼用區碼的1個字母表示,第二主根和副根的代碼都要用“區碼+位碼”2個字母表示,即在區碼後面擴充壹個位碼,這種安排使得每個基根都有了獨立的代碼,從而解決了重碼問題。就象每個人有姓有名才不會有太多的重名壹樣。
《鄭碼》的編碼規則
第壹條:要按照《鄭碼》的基本字根總表上所列出的基根(包括形近根),把漢字分解成基本字根才能編碼。如果沒有合適的基根,就要進壹步分解成筆畫。例如:
補--衤蔔懇--艮心濾--氵虍心書--乛?丨丶
第二條:漢字分解後,基根和筆畫排列的順序叫做“根序”。根序的確定有三種情況:
l.左右字、上下字以及由單筆畫組成的字,根序與規範的書寫順序壹致(見上例中的“補、懇、濾、書”四個字的分解)
2.具有相接、交叉和相嵌結構的字,第壹筆先寫的基根或筆畫排列在前。例如:([]方括號內是例字)相接結構的字:夭--丿大[沃笑];
疋--乛止[蛋疏];
交叉結構的字:束--木口[整辣];
夷--大弓[姨];
屯--七凵[純鈍噸];
相嵌結構的字:亙--二曰[桓恒];
僉--人二(橫三點)[檢驗]
淵--氵(撇-豎)米;
肅--肀(撇-豎)八[蕭簫]
復合結構的字:決--冫乛大[缺炔](又有相接又有相交);
3.對於包圍字和包孕字,要將第壹筆先寫的基根排在第壹位。
因為是以基根為單位排列根序。例如:
困—囗木聞—門耳函—乛氺凵式—弋工
載—?車庫—廣車匭—匚車九趙—走乂
但是,為了檢索的快捷和歸納的劃壹,對於有“辶、廴”的字,確定根序時,要將“辶、廴”排列在第壹位。
例如:“達—辶大”、“延—廴丿止”。
總之,給單字或詞語編碼,就是按照編碼規則依次取基根的代碼組成字詞的編碼。根序搞錯編碼也隨之而錯。因此,正確認識單字的根序十分重要。
第三條:單字和詞語的編碼不能超過4個字母,因此要根據單字或詞語中基根數的多少決定基根代碼的取舍,這種取舍代碼的方法叫取碼方法(詳見以下說明)。
單字的取碼方法
術語:“1碼根”是指第壹主根,因它的代碼只用區碼1個字母。“2碼根”是指第二主根和副根,因為它們的代碼要用區位碼的2個字母。“取1碼”的意思是只取該基根的區碼。
壹、單字編碼的取碼原則
1.單字首根(即第壹個基根)的代碼要按照實際碼數取,不能有所省略。就是說,首根是1碼根就取1碼;首根是2碼根就取2碼(區碼和位碼都要取)。
2.為保證單字編碼不超過4個字母,首根之後的其余基根代碼要根據不同情況決定取舍。壹般是先舍位碼,只取區碼的1碼。
例如:櫻--木F貝LO貝LO女ZM--FLLZ
醒--酉FD曰K生MC--FDKM
但是,對於四基根和多基根字,還要將中間壹些基根的代碼全部舍棄,只取前兩碼和最末2個基根各1碼。就是說,取兩頭舍中間。
例如:縮--糸Z宀WD(亻)壹A白NK--ZWAN
糖--米UF(廣)肀XB口J--UFXJ