當前位置:成語大全網 - 漢語詞典 - 英語和漢語講笑話的異同

英語和漢語講笑話的異同

首先,中文和英文的分詞方法不同

分詞是中文和英文NLP之間最廣為人知的區別。我們都知道英語單詞自然是用空格分隔的,所以在處理英語文本時,用空格分隔單詞是非常容易的。例如,英語句子:

DataGrand是壹家中國公司

可以很容易的分為DataGrand/is/a/Chinese/company(文字分隔符為/表示文字)。

在漢語中,每個句子中間沒有分隔符,而是由壹系列連續的漢字按順序連接起來構成壹個句子。現代漢語表達意義的基本語素是詞而不是詞。比如“自然”不能拆分為“子”和“然”,但是兩個詞組合起來形成的詞可以有準確的意思,對應的英文單詞就是Nature。因此,當我們利用計算機技術對漢語進行自動語義分析時,通常首先要進行漢語分詞操作。漢語分詞是指根據人們理解漢語的方式,將連續的漢字分割成能夠獨立表達意思的詞。例如,中文句子:

"大觀數據是壹家中國公司."

讓計算機來處理,第壹步需要分成“哲學資料/是/a/中國/公司”的形式,然後是後續的理解和處理。

如何根據語義正確切分中文詞語是壹項具有挑戰性的任務。壹旦分詞失敗,就會導致後續的文本處理出現連鎖問題,阻礙對語義的正確理解。為了快速準確地切分漢語,學術界研究了50多年,提出了許多方法。常用的中文分詞方法有經典的機械分詞(如正向/反向最大匹配、雙向最大匹配等。),更好的統計分割(如隱馬爾可夫HMM,條件隨機場CRF),以及RNN,LSTM等近年來采用深度神經網絡的方法。

由於漢語語法本身極其靈活,經常出現語義歧義,給漢語分詞的正確完成帶來了很多障礙。如“嚴守壹關了手機”這個例子所示,根據語義理解,正確的切分方法是“嚴守壹/巴/手機/關”,當算法錯誤時,就很容易分成“嚴守/巴/手機/關”。

更難的是,有時候兩種分詞方法的意思是壹樣的,比如“乒乓球拍賣出去了”,切分成“乒乓/球拍/賣出去了”和“乒乓/拍賣/丟失”本身是可行的,所以目前需要依靠更多的語境來選擇正確的分詞方法。還有“南京長江大橋”、“吉林省長春大藥房”等等。如果把“市長”和“省長”切掉,對整句話的理解就會偏差很多。常見的歧義類型包括交叉歧義和組合歧義。近年來,國內外學者針對漢藏語系這壹特定問題提出了新的解決方案。

順帶壹提,和中文類似,日語句子也缺少自然分隔符,所以日語也需要分詞。日語深受漢語語法的影響,但同時也受到語音語法的影響。明治時代也有過棄漢字,推廣拼音的運動。在寫作中,漢字和假名混在壹起,就像中英文混血兒壹樣。MeCab是業界知名的日語分詞器,其算法核心是條件隨機場CRF。事實上,如果把MeCab的內部訓練語料庫從日文改成中文,也可以用來切分中文。

隨著近年來深度學習技術在NLP領域的成功應用,壹些seq2seq學習過程可以不再使用分詞,而是直接使用單詞作為輸入序列,讓神經網絡自動學習其特征。在壹些端到端的應用中(比如自動文摘、機器翻譯、文本分類等)確實省略了中文分詞這壹步。),但壹方面,很多NLP應用離不開分詞的結果,如關鍵詞提取、命名實體識別、搜索引擎等。另壹方面,切分後的單詞也可以和單個單詞壹起作為特征輸入,增強效果。因此,分詞仍然是工程中中文處理的壹項重要技術。

二,英語語素和漢語偏旁部首的使用

雖然英文單詞的提取比中文簡單很多,完全可以通過空格來獲取單詞,但是英文特有的現象就是單詞有豐富的變形和變換。為了應對這些復雜的轉換,英文NLP有壹些與中文相比獨特的處理步驟,我們稱之為詞條化和詞幹化。

形態還原是因為英語單詞有豐富的單復數、被動和時態變化(***16),所以需要在語義理解上把單詞“還原”成原來的形態,以便計算機更方便地進行後續處理。比如“does,done,doing,did”這幾個詞,需要通過詞性還原還原成“do”這個詞,便於後續的計算機語義分析。同樣,名詞“土豆、城市、孩子、牙齒”也需要通過詞外化轉化為“土豆、城市、孩子、牙齒”的基本形式;同樣,“是,開始,驅動”應改為“是,開始,驅動”。

請註意,詞形歸約通常需要結合詞性標註,以保證歸約的準確性,避免歧義。因為英語中有壹些多義詞,比如calf就是壹個多義詞,可以用作calf(名詞,calf)的復數形式,也可以用作calf(動詞,calf)的第三人稱單數。所以詞形還原有兩種選擇,需要根據實際詞性選擇合適的還原方式。