英語和漢語講笑話的異同

首先，中文和英文的分詞方法不同

分詞是中文和英文NLP之間最廣為人知的區別。我們都知道英語單詞自然是用空格分隔的，所以在處理英語文本時，用空格分隔單詞是非常容易的。例如，英語句子:

DataGrand是壹家中國公司

可以很容易的分為DataGrand/is/a/Chinese/company(文字分隔符為/表示文字)。

在漢語中，每個句子中間沒有分隔符，而是由壹系列連續的漢字按順序連接起來構成壹個句子。現代漢語表達意義的基本語素是詞而不是詞。比如“自然”不能拆分為“子”和“然”，但是兩個詞組合起來形成的詞可以有準確的意思，對應的英文單詞就是Nature。因此，當我們利用計算機技術對漢語進行自動語義分析時，通常首先要進行漢語分詞操作。漢語分詞是指根據人們理解漢語的方式，將連續的漢字分割成能夠獨立表達意思的詞。例如，中文句子:

"大觀數據是壹家中國公司."

讓計算機來處理，第壹步需要分成“哲學資料/是/a/中國/公司”的形式，然後是後續的理解和處理。

如何根據語義正確切分中文詞語是壹項具有挑戰性的任務。壹旦分詞失敗，就會導致後續的文本處理出現連鎖問題，阻礙對語義的正確理解。為了快速準確地切分漢語，學術界研究了50多年，提出了許多方法。常用的中文分詞方法有經典的機械分詞(如正向/反向最大匹配、雙向最大匹配等。)，更好的統計分割(如隱馬爾可夫HMM，條件隨機場CRF)，以及RNN，LSTM等近年來采用深度神經網絡的方法。

由於漢語語法本身極其靈活，經常出現語義歧義，給漢語分詞的正確完成帶來了很多障礙。如“嚴守壹關了手機”這個例子所示，根據語義理解，正確的切分方法是“嚴守壹/巴/手機/關”，當算法錯誤時，就很容易分成“嚴守/巴/手機/關”。

更難的是，有時候兩種分詞方法的意思是壹樣的，比如“乒乓球拍賣出去了”，切分成“乒乓/球拍/賣出去了”和“乒乓/拍賣/丟失”本身是可行的，所以目前需要依靠更多的語境來選擇正確的分詞方法。還有“南京長江大橋”、“吉林省長春大藥房”等等。如果把“市長”和“省長”切掉，對整句話的理解就會偏差很多。常見的歧義類型包括交叉歧義和組合歧義。近年來，國內外學者針對漢藏語系這壹特定問題提出了新的解決方案。

順帶壹提，和中文類似，日語句子也缺少自然分隔符，所以日語也需要分詞。日語深受漢語語法的影響，但同時也受到語音語法的影響。明治時代也有過棄漢字，推廣拼音的運動。在寫作中，漢字和假名混在壹起，就像中英文混血兒壹樣。MeCab是業界知名的日語分詞器，其算法核心是條件隨機場CRF。事實上，如果把MeCab的內部訓練語料庫從日文改成中文，也可以用來切分中文。

隨著近年來深度學習技術在NLP領域的成功應用，壹些seq2seq學習過程可以不再使用分詞，而是直接使用單詞作為輸入序列，讓神經網絡自動學習其特征。在壹些端到端的應用中(比如自動文摘、機器翻譯、文本分類等)確實省略了中文分詞這壹步。)，但壹方面，很多NLP應用離不開分詞的結果，如關鍵詞提取、命名實體識別、搜索引擎等。另壹方面，切分後的單詞也可以和單個單詞壹起作為特征輸入，增強效果。因此，分詞仍然是工程中中文處理的壹項重要技術。

二，英語語素和漢語偏旁部首的使用

雖然英文單詞的提取比中文簡單很多，完全可以通過空格來獲取單詞，但是英文特有的現象就是單詞有豐富的變形和變換。為了應對這些復雜的轉換，英文NLP有壹些與中文相比獨特的處理步驟，我們稱之為詞條化和詞幹化。

形態還原是因為英語單詞有豐富的單復數、被動和時態變化(***16)，所以需要在語義理解上把單詞“還原”成原來的形態，以便計算機更方便地進行後續處理。比如“does，done，doing，did”這幾個詞，需要通過詞性還原還原成“do”這個詞，便於後續的計算機語義分析。同樣，名詞“土豆、城市、孩子、牙齒”也需要通過詞外化轉化為“土豆、城市、孩子、牙齒”的基本形式；同樣，“是，開始，驅動”應改為“是，開始，驅動”。

請註意，詞形歸約通常需要結合詞性標註，以保證歸約的準確性，避免歧義。因為英語中有壹些多義詞，比如calf就是壹個多義詞，可以用作calf(名詞，calf)的復數形式，也可以用作calf(動詞，calf)的第三人稱單數。所以詞形還原有兩種選擇，需要根據實際詞性選擇合適的還原方式。