據說再過幾十年,世界將是壹個兩大語言並存的社會,中文和英文。我說如果按照現在的思維方式,可能就不是這樣了。
從十幾年前開始,大眾和專家就壹直在談論漢字輸入,各有各的見解;後來逐漸降溫,直到沒人鼓掌。然而,壹個根本因素並沒有引起重視——漢字口語表達的不便。
任何語言的字母或成分都需要並且應該用口語來表達。眾所周知,每壹個拉丁字母不僅在詞匯上被視為壹個音位,而且可以單獨用語音來表達。表達壹個字母比用單詞發音更容易。不會說英語的各個年齡段的人,不僅能流利地說:VCD、美國、CCTV,還能通過電話“讀”信,能清楚地說出外國的名字和詞匯。
相比之下,漢字的組成部分,如木、火、土、人、口等。,當然可以獨立使用,而漢字的部件,比如易,是不能口頭表達的。人們常說:“弓長梅長”,但“官服鼠”這四個字,是不能用上面說的“拆分零件”的方式來描述的。
漢字的信息化離不開部件的表達。沒有稱謂,就無法用文字描述,也很難用人物賦值。這是“奔騰”的根本原因。
相當多的中學生能背誦和記憶元素周期表,對學習化學自然有好處。但是,我不知道有多少中文系的老師和學生能同樣熟悉漢字部件表。當然,這並不是說中文系的學生不勤奮。
需要指出的是,如果連中文專業的學生都掌握不了語言規範,還能提供給大眾嗎?
如果我們的漢字部件規範不能被大眾掌握,這個規範能有效用於信息化嗎?漢字來源於部件的集合,不如更嚴格地規範漢語專業的形式部件。但是,是否可以有壹個簡短的實用組件規格列表?不僅適合孩子學習,也有利於外國人學習漢語。語言是大眾用的,語言規範也是大眾用的。語言規範能否在信息時代更受歡迎?
專註過程,忽略目標。
多年來,我們非常重視漢字的數字表示,重視漢字輸入計算機時的賦值,認為這是漢字信息化的目標;其實漢字的數字轉換只是壹個過程。真正值得關註的是人腦中“人機對話”的思維過程,也就是目標。
漢字的信息化標準既要適應機器處理,又要重視“人機對話”的過程。語言信息化首要考慮的是說寫的人,要合理地把“筆畫字”改成“文字字”,當然是適應人的思維習慣。
五四前後,漢語從文字和文字壹分為二的古奧語變成了白話文,從象牙塔裏走進了百姓家,這是漢語發展史上的壹個裏程碑。有了白話文,才能創造漢語普及的條件,才能產生“音碼”,才能廣泛使用拼音輸入。
在1997中,國家語委發布的GB 13000.1《信息處理用字符集-漢字部件規範》規定了漢字基本部件表的560個部件及其使用規則。
任何音標的基本字母都很簡潔,小孩子和外國人很快就能背下來。而漢字的“部件表”,加上各種漢字筆碼輸入法的“部件賦值表”,氣勢磅礴,難以記憶。
為什麽軍隊需要軍銜?壹支軍隊有很多軍官,外人能記住他們的名字和上百個職務。但是,只要妳有軍銜,就可以稱呼任何軍官。對於漢字部件,是否也應該創造更合理的部件命名和分類?
在社會生活中,稱謂是不斷變化的。就拿人來說,隨著社會的發展,人與人之間的關系在不斷變化,人的稱謂自然也會發生變化。人的稱謂既有時代特征,又有地域特征,會隨著人的交流和流動而傳播。構件的規格和稱謂也要根據信息化的要求而變化。
為了對應26個拉丁字符,漢字必須改變自己的法律和恢復部件標題。在數字化的過程中,漢字必須不斷發展自己的理論,不斷創新,才能保持自己的地位。
排序基準與漢字部件的排序轉換
很多信息化項目因為對數據的誤解而失敗,但不怕犧牲的人依然勇於壹個又壹個地前進。他們腦子裏只有新的模型和版本,看不到數據的產生和變化,當然也看不到管理數據的人。在壹些老板眼裏,程序才是決定性因素,數據只是運營者的事。
信息時代是壹個有序的時代,是壹個數字地球的時代。不遵守客觀規律,不註重“秩序”意義的人,只能陷入泥潭。
漢字部件除了缺少稱謂,還缺少符號表達和快速排序規則。其實有了標題或者符號代碼,排序就解決了。
排序不會隨意形成隊列,排序有公認的基準和標準。
接受的排序標準是:數字和拉丁字母順序,可以按升序或降序使用。
電腦排序的標準永遠是“相鄰競爭”,就像豪傑壹樣。就像“1”和“0”,以及“P”和“Q”壹樣簡潔。只要兩個相鄰的參數滿足排序標準,整個隊列就成為有序隊列。
誠然,壹切都可以選擇多種比較標準。但是,人們已經形成了參照公認標準的習慣,這個標準就是排名基準。
壹切都要盡快轉換成相應的數字或字符,過程盡量直觀簡單。
直觀變換是指在這個東西的變換過程中,只使用壹個基本特征就可以直接轉換成數字或字符,同時確定相關事物在隊列中的位置。
壹個直觀的轉換不僅適用於機器,也適用於人的日常表達。
在現有的漢字部件規範中,部件的筆畫必須壹壹計算。因為部件的筆畫是1-16,所以筆畫相同的部件很多,比如四筆畫的部件多達99個。為了確定部件在隊列中的位置,在第壹次計算筆畫之後,需要選擇新的特征用於在具有相同筆畫的部件之間進行比較。這樣,組件規範中的排序就不是壹次性的或直觀的轉換了。
直觀轉換是數字化的壹個重要原則。現有的漢字部件規範按“筆畫數”和“筆畫形狀”排序,只能用於手工字典檢索,不能滿足數字化處理的需要。
漢字的基本筆畫
長期以來,在漢字的學習和應用中,漢字結構的兩個端點,即筆畫和整字、筆畫形狀、筆畫順序、字形和意義,成為漢字教學和考試評價的重要標準。
因為書寫工具只是壹把刀或壹支筆,在書寫過程中強調和突出了字的筆畫和筆劃,而弱化了部件。漢字從最初的象形文字變得越來越“橫平豎直”,這是由於應用範圍的擴大和書寫工具的變化。但是,最根本的是,由於社會的進步,生產力的提高,不僅要求更快的書寫速度,還要求更快的記錄速度。
快寫要求簡化結構,減少筆畫,簡化字體,拉直筆畫;
區分多義詞需要準確的區分,增加字數達到準確表達。
工具可以影響和決定產品的特性。古代的刀刻龜甲,農業社會的毛筆書寫,工業時代的鉛筆、鋼筆、圓珠筆,決定了漢字的書寫過程是以筆畫為基礎的。
漢字經過幾千年的錘煉,每壹個字都形成了優美的結構。漢字的廣泛使用創造了對鋼筆的需求,毛筆在中國被人們充分發揮了作用。毛筆和書法是中國人民對人類文明的偉大貢獻,它將文字、藝術和作者的情感有機地結合在壹起。
恢復組件的原始信息
在漢字產生過程中起著重要作用的“部件”在漢字發展過程中被弱化了。在漫長的歲月中,雖然大量的部件信息及其來源依據已經慢慢失傳,但並不影響漢字的應用和教學。
在漢字教學過程中,筆畫數和順序成為描述和概括漢字的主要參數。作為偏旁部首,有些部件也可以成為漢字分類的標誌,即這些偏旁部首中的10多個重要部件“失去”了它們的稱謂。
我們經歷了幾千年的熏陶,在中國的環境中學習漢字需要很長的時間。在國內用電腦教漢字還是個難題,在國外教學用電腦就更難了。到目前為止,海外人士在電腦上學習漢字還沒有成熟的方法。
零件的稱謂逐漸被人們遺忘,很難直接描述和描寫零件。好在中文的“逐字逐句說”功能方便又普及,部件也很容易解釋。這個結果進壹步加速了組件標題的“遺忘”。
比如“官”字和上面說的“安”、“子”不同,區別就在於成分“官(下半部)?”零件標題已丟失。無法用口語中的拆詞來描述。但是,用鋼筆面對面寫“官”字幾千年,不會給學習和理解它帶來什麽麻煩。
為了適應通信和信息化的需要,“官”字不能用“李”、“張”兩個字來形容。但是,用聯想來表達“官”為“官”也同樣準確。
人們可以用聯想詞來描述漢字,但還不能用這種方式進行人機對話。計算機遠沒有達到人的思維和判斷水平,也無法適應不同人的不同習慣。我們自然會想,為什麽不能恢復“官職(下半部)”的稱謂,這樣,漢字就可以像“李木子”壹樣表達了。
計算機的廣泛使用使“書寫”工具發生了質的變化。計算機可以整體輸入部件,弱化漢字的筆畫。這樣,漢字的信息化就可能“回歸”到造字階段,突出漢字部件的整體形象。
漢字信息化的對比點不能按照現行的現代文字應用規範,而應選擇部件產生時最活躍時期的信息。換句話說,我們無法選擇2000年的語言習慣;也不能把1980的語言應用水平作為漢字信息化的對比標準,而要從漢字的生成時間去尋求。
因此,漢字輸出的信息化要還原漢字部件的原始信息,將原始漢字部件與當前賦值碼關聯起來。
部件成為漢字信息化的斷層
有人把漢字叫做“漢字樹”,其實用的更多的是電腦和軟件。計算機漢字輸入法也可以看作是壹棵樹。首先分為“形碼”和“音碼”,“形碼”有兩種賦值方式可供選擇:基於部件或基於筆畫。
前者可以通過部件標題的集合來表達漢字,符合先人造字的思維。壹旦拋棄了部件稱謂和賦字的壹致性,輸入法就失去了語言的基本特征——音形合壹,脫離了語言習慣的方法,自然讓人覺得難學。
筆畫輸入曾被認為是壹種繁瑣的方法,在電腦上不被人看好。另壹個村子前途光明,鋪天蓋地的手機用戶都想上網,用電話數字鍵盤的智能屏提示筆碼輸入是最好的選擇。面對小鍵盤,只要筆畫不在乎零件,就成了優勢。鍵盤雖小,但芯片中的智能彌補了面積的不足。不管最終評價如何,這項技術已經被廣泛安裝在手機上。
上面壹段描述大家都知道的事情,似乎有點多余。但是,在社會的高速發展中,技術和它所面對的市場是螺旋式前進的,今天沒用的方法和技術,明天就可能找到用武之地。雖然這是壹個道理,但很多時候,壹個閃耀的創意的價值,往往是以其擁有者的“地位”來衡量的。
文化傳統和計算機應用的統壹仍然是我們關心的問題。工具的進步不僅可以帶來思維的進步,還可以讓我們在漫長的歷史中找到最適合計算機表達的寫作模式。我們的祖先基於構件的造字思維過程能否直接與計算機結合?既要在歷史長河中找到組件的位置,也要在信息工廠的過程中對組件進行創新。
隨著科技的發展,人們可以從歷史、天文、考古、地震、科技斷代等等中提取任何需要的參數。例如,200名專家共同攻關,用5年時間完成了夏商周年表,將中國的歷史年份向前推進了1229年。這樣,不僅使中國歷史上的年表延長了1900年,而且增強了人們對該學科的新認識。地球上所有的歷史、資源和文化都是有用的,不能擅自破壞或丟棄。
電腦更新零件。
為了給大眾找壹種輸入法,我們回到6000年前的年代。部件是整個字的基礎,而當筆作為工具時,部件的特點就不會突出來。電腦的出現應該說是給了零件壹個年輕化的機會,或者說是試圖把零件和人物有機對應起來。
在數百年的工業時期,西方社會開始嘗試使用機電設備對字符進行編碼和解碼。這種方法移植到中國後,只能產生壹個基於死記硬背的四位“電報代碼”。
如果說打字機的出現讓西方社會擺脫了隨意草書的手寫字母;電傳打字機(當然包括計算機終端的鍵盤)進壹步使公眾超越了莫爾斯電碼,創造了自由交流的應用環境。所以,
因為漢字的三層結構,即使引入這些設備,也無法直接模仿西方的文字信息化。漢字應該由機器輸入。其實要改變幾千年養成的用筆寫字的習慣,改變思維的習慣過程。這壹點在信息化或者數字化的過程中很少被人們註意到。
漢字的“裂變”與“聚合”
20世紀80年代中期計算機廣泛進入社會後,漢字的輸入成為壹個難題。不管怎麽評論各種代碼,大多數人還是覺得“難學”。為什麽用我們自己的母語“嫁”計算機這麽難?不編碼,不背碼,是很多網民,尤其是大量中老年人的願望。
尋呼臺也是用電腦的,漢字臺的尋呼臺姑娘“說詞”我們不需要培訓。大家都可以表達清楚。比如我們可以說:“李木子”;也可以說“官官”。
註意,手機上的“說詞”,沒有輔助手勢,也不能顯示在屏幕和黑板上,完全靠嘴。這是因為中國人可以根據自己的語言習慣來表達自己,用壹個詞來解釋和說明另壹個詞。既有詞分離的“裂變”,也有聯想的“聚合”。那麽,是否可以直接用“說漢字”的方式將漢字輸入電腦呢?答案是肯定的,但是文字的表達壹定要規範。
語言的發展源於社會進步,語言促進社會進步。文字和語言的同步在規範和登記語言方面起著作用。
隨著民族的興衰,尤其是科技的發展,語言也在起起落落。當然,漢字的未來也不能掉以輕心。
編碼不能失去語言規則。
隨著社會的變遷和進步,很多成分的含義已經不再通用,但是這些成分依然存在,甚至可以在很多常用詞中找到。
有壹個不成文的部分“?”在“旅”中應該是最早造詞所指的“旗”。在古代,人們舉著旗幟,列隊為部落的生存而戰。
現在“旅”更多用於“旅遊”,恰好導遊也舉著小旗子,帶領客人檢閱那些古戰場。我們祖先的思維在現代生活中復活了,這是很多漢字中的巧合。
壹批丟失了標題的部件,不影響學習和書寫,卻給漢字的信息化帶來困難。在現代語言環境下,采用簡單的壹個部件壹個部件賦值的方法對漢字進行編碼,並應用於大眾,必然會面臨困難。
“若名不正,字不通順”,難以表達無名的部分。為了給常用偏旁部首和構詞成分賦值,需要尋找和恢復丟失的原始信息,以保證漢字信息化的完整性。
大眾需要的只是“語言”,“編碼”不屬於大眾。這是古今中外的規律。問題是,我們有沒有可能創造壹種基於中國法律的計算機輸入法?答案是肯定的。
第壹,漢字信息化的描述應以“自然語言”為基礎;
第二,漢字信息化的基礎在於部件描述;
第三,恢復組件的標題,找到丟失的信息。
復興活潑、蓬勃、自強的民族文化
盡管英美網絡專家和語言學家也表示,中文將是互聯網上最常用的語言,但中文網頁發展的障礙是復雜的中文輸入。
胡適先生在1914中指出:“打字機是為文字而造的,打字機是為非文字而造的。因為妳不會做打字機,所以妳想浪費文字。它的愚蠢比那些適合鑿腳趾的人高千萬倍。況且漢字不壹定適合打字機。”胡老師的這段話,即使在“電腦時代”依然很適用。
而在幾年前,輸入法往往註重漢字的筆畫與文字的對應關系,卻忽略了書寫的思維過程,或者脫離了日常說話的自然習慣。所以有些輸入法即使能接受,只要中斷壹段時間也很容易忘記。
面對文明與文化、傳統與進步的問題,拋棄傳統文化遺產的“進步”能算是我們的驕傲嗎?中國悠久的文化是中華民族的強大凝聚力。我們有責任在數字革命中維護和發揚中國的傳統文化,將現代化與傳統有機結合,其中漢字的使用是最重要的壹部分。
組件規範不打算處理“輸入法”
符號不難發明。如果中國真的有科學的種子,壹定會創造出很多簡單的符號。中國過去只有技術,沒有科學。不是所有的西方國家都從他們的字母中尋找符號,但他們也發明了許多其他符號,如+-*/=等。發明符號是壹件很簡單的事,壹天就背幾個字母,但要讓社會接受是最難的。
為了解決“輸入法”,當然需要制定漢字的信息標準,但是不要忘了,漢字的問題不是輸入法的問題。因此,漢字信息化的標準化不僅是針對“業余編碼愛好者”,也是為了滿足全世界漢字信息化的需求。