當前位置:成語大全網 - 新華字典 - 漢字編碼系統的做法

漢字編碼系統的做法

漢字編碼,就是字詞基本屬性的拼寫形式,這些拼寫形式,是用《漢語拼音方案》拼寫的。

這個定義規定:①編碼內容,是字詞的基本屬性。這些基本屬性,是最基本的啟蒙常識,包括漢字的讀音、筆順、偏旁部首及其組合等內容。②拼寫工具,是《漢語拼音方案》。 漢字編碼的“通用模式”是:

[漢字編碼]=[讀音描述’]+[形義特征描述’]+[檢索序號];

等式右邊,包括讀音部分、形義特征部分和序號部分;各部分及分隔符號,可根據需要定義取舍。

讀音部分,描述字詞的讀音屬性,它按照《漢語拼音方案》和《漢語拼音正詞法基本規則》的規定,拼寫字詞。

形義特征部分,描述字詞的筆順、偏旁部首和詞性等屬性,或同音字詞的區別特征。

序號部分,描述字詞在同壹個屬性分類中的排列順序,其自身,也是壹種語文屬性,它使字詞的屬性描述具有確定性。

這個***同的編碼“通用模式”,具有開放性,它可以不斷地揚棄和吸收,以適應社會信息化需要。 利用編碼通用模式,可以實現編碼樣式的相互演化。

取其“讀音描述”部分,就是現有的“音碼”;

取其“形義特征”部分,就是現有的“形碼”;

兩部分全取,就是現有的“音形碼”;調換兩部分位置,就是現有的“形音碼”。 “漢字編碼系統”,使用統壹的代碼。它們是:

(1)、讀音代碼,描述字詞讀音和部件名稱;用《漢語拼音方案》拼寫,或縮寫。

(2)、筆畫代碼,描述漢字筆畫或書寫筆順;橫、豎、撇、點、折, 用《漢語拼音方案》拼寫,或縮寫。

(3)、聲調代碼,描述漢語音節的聲調;陰平、陽平、上聲、去聲,用《漢語拼音方案》拼寫,或縮寫(陽平聲調的縮寫,用“平”字的聲母“p”表示),輕聲不標,或將聲調用數字表示。

(4)、序號代碼,描述字詞在屬性分類中的排列序號,用漢語拼音字母表示,按字母表排序,或用數字表示,或將字母(或數字)定義相應的數值進制。

漢字部件,有讀音的,用讀音代碼描述;無讀音的,用筆畫代碼描述;也可以全用筆畫代碼描述。 拼音識字階段,字詞的基本屬性,可首選為:讀音、筆順,然後再加入:部首、偏旁(部件)。

字詞讀音,按普通話拼寫。多讀音的,教學用碼,以《小學生規範字典》的註音範圍為依據;社會用碼,以辭書典籍為註音依據,盡量全面收錄。

字形,依據GB18030-2005文件字形。

書寫筆順,有國家標準的,按標準拼寫;無標準的,按現有標準類推拼寫;無法類推的,按筆順的壹般原則確定。

部首,據形歸部,采用201部。取部方法,參照《如何確定漢字部首》(3)。

部首、偏旁(部件)名稱,有讀音依據的,用讀音稱說;無讀音依據的,采用“俗稱”。 大多的漢字輸入編碼,它是字詞屬性的固定組合,它是從碼表中,檢索“固定的”組合編碼;“漢字編碼系統”,它是字詞屬性的隨機組合,它是從碼表中,或數據庫中,檢索“隨機的”組合編碼。這種“隨機性”,是由使用者依據自己的意願,“隨機”組合的。

大多的輸入方法,輸入規則,是別人定好了的。使用者要做的,就是去學習和適應別人的輸入規則。“漢字編碼系統”,則換了壹種角度,不要求使用者怎樣怎樣,而是讓使用者, “在語文常識範圍內,漢字,您想怎麽打,就怎麽打”。它的試驗模型,叫《語文輸入法》(4)。 將漢字編碼,標註在啟蒙讀物中。不識字幼兒,可以利用計算機,壹邊輸入,壹邊跟隨機器閱讀。小學生,可以借助漢字標註,直接在字典中查找漢字的其它註釋。這裏,以《三字經》標註為例,對漢字標註加以說明(5)。標註樣式為“讀音’部首’序號”樣式,隔音符號前面,是漢字的讀音,隔音符號後面,是漢字的部首代碼和檢索序號,整個標註樣式,就是漢字的輸入編碼。比如,“人”字,讀音是“rén”,部首代碼是“r”,檢索序號是“b”,它的輸入編碼是“ren2'rb”。

下面,是《三字經》的標註片段:

rén'rb zhī'd chū'y xìnɡ'x běn'm shàn'yb

人 之 初 性 本 善

xìnɡ'x xiānɡ'm jìn'cb xí'z xiānɡ'm yuǎn'c

性 相 近 習 相 遠

ɡǒu'c bú'h jiào'p xìnɡ'x nǎi'z qiān'cb

茍 不 教 性 乃 遷

jiào'p zhī'd dào'c ɡuì'b yǐ'r zhuān'h

教 之 道 貴 以 專 年輕人,喜歡用拼音輸入,然後,轉成漢字,進行網上交流。實際上,單用拼音,也能進行交流。

比如,nin hao!(您好!)

這種交流,拼寫有時可能不具有確定性。

但是,采用“漢字編碼系統”的“讀音’部首代碼’檢索序號”樣式,可以實現漢字與拼寫,壹壹對應(5)。

本人嘗試過,對27000個漢字,采用這種拼寫樣式,漢字與拼寫,壹壹對應。

比如,“善”字,采用“讀音’部首代碼’檢索序號”樣式拼寫,可以劃分為三個應用層次:

(1)、壹般拼寫:shan4 (“拼音”樣式);

(2)、熟練拼寫:shàn'y (“拼音’部首代碼”樣式);

(3)、計算機內碼:shàn'yb (“拼音’部首代碼 檢索序號”樣式)。 (1)、用作計算機底層語言的漢字編碼。

現在,漢字編碼還不能參與計算機底層運算,也不能編制計算機底層應用程序。因為,現有的漢字編碼,還不能人機識讀,不具有“翻譯”的確定性。“語文編碼”,能夠人機識讀,字詞與編碼,具有唯壹的確定性。

(2)、用作機器翻譯的漢字編碼。

字詞的機器翻譯,將遇到多音字詞,多義字詞的困擾。而“語文編碼”,將字詞的讀音、詞義標註的壹清二楚,並具有確定性。