漢字編碼系統的做法

漢字編碼，就是字詞基本屬性的拼寫形式，這些拼寫形式，是用《漢語拼音方案》拼寫的。

這個定義規定：①編碼內容，是字詞的基本屬性。這些基本屬性，是最基本的啟蒙常識，包括漢字的讀音、筆順、偏旁部首及其組合等內容。②拼寫工具，是《漢語拼音方案》。漢字編碼的“通用模式”是：

[漢字編碼]=[讀音描述’]+[形義特征描述’]+[檢索序號]；

等式右邊，包括讀音部分、形義特征部分和序號部分；各部分及分隔符號，可根據需要定義取舍。

讀音部分，描述字詞的讀音屬性，它按照《漢語拼音方案》和《漢語拼音正詞法基本規則》的規定，拼寫字詞。

形義特征部分，描述字詞的筆順、偏旁部首和詞性等屬性，或同音字詞的區別特征。

序號部分，描述字詞在同壹個屬性分類中的排列順序，其自身，也是壹種語文屬性，它使字詞的屬性描述具有確定性。

這個***同的編碼“通用模式”，具有開放性，它可以不斷地揚棄和吸收，以適應社會信息化需要。利用編碼通用模式，可以實現編碼樣式的相互演化。

取其“讀音描述”部分，就是現有的“音碼”；

取其“形義特征”部分，就是現有的“形碼”；

兩部分全取，就是現有的“音形碼”；調換兩部分位置，就是現有的“形音碼”。 “漢字編碼系統”，使用統壹的代碼。它們是：

(1)、讀音代碼，描述字詞讀音和部件名稱；用《漢語拼音方案》拼寫，或縮寫。

(2)、筆畫代碼，描述漢字筆畫或書寫筆順；橫、豎、撇、點、折，用《漢語拼音方案》拼寫，或縮寫。

(3)、聲調代碼，描述漢語音節的聲調；陰平、陽平、上聲、去聲，用《漢語拼音方案》拼寫，或縮寫（陽平聲調的縮寫，用“平”字的聲母“p”表示），輕聲不標，或將聲調用數字表示。

(4)、序號代碼，描述字詞在屬性分類中的排列序號，用漢語拼音字母表示，按字母表排序，或用數字表示，或將字母（或數字）定義相應的數值進制。

漢字部件，有讀音的，用讀音代碼描述；無讀音的，用筆畫代碼描述；也可以全用筆畫代碼描述。拼音識字階段，字詞的基本屬性，可首選為：讀音、筆順，然後再加入：部首、偏旁（部件）。

字詞讀音，按普通話拼寫。多讀音的，教學用碼，以《小學生規範字典》的註音範圍為依據；社會用碼，以辭書典籍為註音依據，盡量全面收錄。

字形，依據GB18030-2005文件字形。

書寫筆順，有國家標準的，按標準拼寫；無標準的，按現有標準類推拼寫；無法類推的，按筆順的壹般原則確定。

部首，據形歸部，采用201部。取部方法，參照《如何確定漢字部首》(3)。

部首、偏旁（部件）名稱，有讀音依據的，用讀音稱說；無讀音依據的，采用“俗稱”。大多的漢字輸入編碼，它是字詞屬性的固定組合，它是從碼表中，檢索“固定的”組合編碼；“漢字編碼系統”，它是字詞屬性的隨機組合，它是從碼表中，或數據庫中，檢索“隨機的”組合編碼。這種“隨機性”，是由使用者依據自己的意願，“隨機”組合的。

大多的輸入方法，輸入規則，是別人定好了的。使用者要做的，就是去學習和適應別人的輸入規則。“漢字編碼系統”，則換了壹種角度，不要求使用者怎樣怎樣，而是讓使用者， “在語文常識範圍內，漢字，您想怎麽打，就怎麽打”。它的試驗模型，叫《語文輸入法》(4)。將漢字編碼，標註在啟蒙讀物中。不識字幼兒，可以利用計算機，壹邊輸入，壹邊跟隨機器閱讀。小學生，可以借助漢字標註，直接在字典中查找漢字的其它註釋。這裏，以《三字經》標註為例，對漢字標註加以說明(5)。標註樣式為“讀音’部首’序號”樣式，隔音符號前面，是漢字的讀音，隔音符號後面，是漢字的部首代碼和檢索序號，整個標註樣式，就是漢字的輸入編碼。比如，“人”字，讀音是“rén”，部首代碼是“r”，檢索序號是“b”，它的輸入編碼是“ren2'rb”。

下面，是《三字經》的標註片段:

rén'rb zhī'd chū'y xìnɡ'x běn'm shàn'yb

人之初性本善

xìnɡ'x xiānɡ'm jìn'cb xí'z xiānɡ'm yuǎn'c

性相近習相遠

ɡǒu'c bú'h jiào'p xìnɡ'x nǎi'z qiān'cb

茍不教性乃遷

jiào'p zhī'd dào'c ɡuì'b yǐ'r zhuān'h

教之道貴以專年輕人，喜歡用拼音輸入，然後，轉成漢字，進行網上交流。實際上，單用拼音，也能進行交流。

比如，nin hao！（您好！）

這種交流，拼寫有時可能不具有確定性。

但是，采用“漢字編碼系統”的“讀音’部首代碼’檢索序號”樣式，可以實現漢字與拼寫，壹壹對應（5）。

本人嘗試過，對27000個漢字，采用這種拼寫樣式，漢字與拼寫，壹壹對應。

比如，“善”字，采用“讀音’部首代碼’檢索序號”樣式拼寫，可以劃分為三個應用層次：

(1)、壹般拼寫：shan4 （“拼音”樣式）；

(2)、熟練拼寫：shàn'y （“拼音’部首代碼”樣式）；

(3)、計算機內碼：shàn'yb （“拼音’部首代碼檢索序號”樣式）。 (1)、用作計算機底層語言的漢字編碼。

現在，漢字編碼還不能參與計算機底層運算，也不能編制計算機底層應用程序。因為，現有的漢字編碼，還不能人機識讀，不具有“翻譯”的確定性。“語文編碼”，能夠人機識讀，字詞與編碼，具有唯壹的確定性。

(2)、用作機器翻譯的漢字編碼。

字詞的機器翻譯，將遇到多音字詞，多義字詞的困擾。而“語文編碼”，將字詞的讀音、詞義標註的壹清二楚，並具有確定性。