AI PM應該懂的自然語言處理（NLP）知識

NLP是人工智能的壹個子領域，作為AI產品經理，我們至少要知道NLP是什麽，它能做什麽事，這樣我們就能獲得壹種解決問題的思維，將遇到的問題和方法連接起來。接下來我從“NLP是什麽、能做什麽、目前遇到的難題”三個方面來簡單介紹下NLP。

壹．什麽是NLP

NLP，中文叫自然語言處理，簡單來說，是壹門讓計算機理解、分析以及生成自然語言的學科，大概的研究過程是：研制出可以表示語言能力的模型——提出各種方法來不斷提高語言模型的能力——根據語言模型來設計各種應用系統——不斷地完善語言模型。

NLP理解自然語言目前有兩種處理方式：

1.基於規則來理解自然語言，即通過制定壹些系列的規則來設計壹個程序，然後通過這個程序來解決自然語言問題。輸入是規則，輸出是程序；

2.基於統計機器學習來理解自然語言，即用大量的數據通過機器學習算法來訓練壹個模型，然後通過這個模型來解決自然語言問題。輸入是數據和想要的結果，輸出是模型。

接下來簡單介紹NLP常見的任務或應用。

二．NLP能做什麽：

1.分詞

中文可以分為字、詞、短語、句子、段落、文檔這幾個層面，如果要表達壹個意思，很多時候通過壹個字是無法表達的壹個含義的，至少壹個詞才能更好表達壹個含義，所以壹般情況是以“詞”為基本單位，用“詞”組合來表示“短語、、句子、段落、文檔”，至於計算機的輸入是短語或句子或段落還是文檔就要看具體的場景。由於中文不像英文那樣詞與詞之間用空格隔開，計算機無法用區分壹個文本有哪些詞，所以要進行分詞。目前分詞常用的方法有兩種：

（1）基於規則：Heuristic（啟發式）、關鍵字表

（2）基於機器學習/統計方法：HMM（隱馬爾科夫模型）、CRF（條件隨機場）

（註：在這裏就不具體介紹方法的原理和實現過程了，大家感興趣，可以自行百度了解）

現狀分詞這項技術非常成熟了，分詞的準確率已經達到了可用的程度，也有很多第三方的庫供我們使用，比如jieba，所以壹般在實際運用中我們會采用“jieba+自定義詞典”的方式進行分詞。

2.詞編碼

現在把“我喜歡妳”這個文本通過分詞分成“我”、“喜歡”、“妳”三個詞，此時把這三詞作為計算機的輸入，計算機是無法理解的，所以我們把這些詞轉換成計算機能理解的方式，即詞編碼，現在普遍是將詞表示為詞向量，來作為機器學習的輸入和表示空間。目前有兩種表示空間：

（1）離散表示：

A.One-hot表示

假設我們的語料庫是：

我喜歡妳妳對我有感覺嗎

詞典{“我”：1，“喜歡”：2，“妳”:3,“對“：4，“有”：5，“感覺”：6，“嗎”：7} 。壹***有七個維度。

所以用One-hot表示：

“我” ?：[1, 0, 0, 0, 0, 0, 0]

“喜歡”：[0, 1, 0, 0, 0, 0, 0]

········

“嗎” ?：[0, 0, 0, 0, 0, 0, 1]

即壹個詞用壹個維度表示

B.bag of word：即將所有詞的向量直接加和作為壹個文檔的向量。

所以“我喜歡妳”就表示為：“[1, 1, 1, 0, 0, 0, 0]”。

C. Bi-gram和N-gram（語言模型）：考慮了詞的順序，用詞組合表示壹個詞向量。

這三種方式背後的思想是：不同的詞都代表著不同的維度，即壹個“單位”（詞或詞組合等）為壹個維度。

（2）分布式表示：word2vec，表示壹個***現矩陣向量。其背後的思想是“壹個詞可以用其附近的詞來表示”。

離散式或分布式的表示空間都有它們各自的優缺點，感興趣的讀者可以自行查資料了解，在這裏不闡述了。這裏有壹個問題，當語料庫越大時，包含的詞就越多，那詞向量的維度就越大，這樣在空間儲存和計算量都會指數增大，所以工程師在處理詞向量時，壹般都會進行降維，降維就意味著部分信息會丟失，從而影響最終的效果，所以作為產品經理，跟進項目開發時，也需要了解工程師降維的合理性。

3.自動文摘

自動文摘是指在原始文本中自動摘要出關鍵的文本或知識。為什麽需要自動文摘？有兩個主要的原因：（1）信息過載，我們需要在大量的文本中抽出最有用、最有價值的文本；（2）人工摘要的成本非常高。目前自動文摘有兩種解決思路：第壹種是extractive（抽取式），從原始文本中找到壹些關鍵的句子，組成壹篇摘要；另壹種方式是abstractive（摘要式），計算機先理解原始文本的內容，再用自己的意思將其表達出來。自動文摘技術目前在新聞領域運用的最廣，在信息過載的時代，用該技術幫助用戶用最短的時間了解最多、最有價值的新聞。此外，如何在非結構的數據中提取結構化的知識也將是問答機器人的壹大方向。

4.實體識別

實體識別是指在壹個文本中，識別出具體特定類別的實體，例如人名、地名、數值、專有名詞等。它在信息檢索、自動問答、知識圖譜等領域運用的比較多。實體識別的目的就是告訴計算機這個詞是屬於某類實體，有助於識別出用戶意圖。比如百度的知識圖譜：

“周星馳多大了”識別出的實體是“周星馳”（明星實體），關系是“年齡”，搜索系統可以知道用戶提問的是某個明星的年齡，然後結合數據“周星馳 ?出生時間 ?1962年6月22日”以及當前日期來推算出周星馳的年齡，並把結果直接把這個結果顯示給用戶，而不是顯示候選答案的鏈接。

此外，NLP常見的任務還有：主題識別、機器翻譯、文本分類、文本生成、情感分析、關鍵字提取、文本相似度等，以後有時間再為大家做簡單介紹。

三．NLP目前存在的難點

1.語言不規範，靈活性高

自然語言並不規範，雖然可以找壹些基本規則，但是自然語言太靈活了，同壹個意思可以用多種方式來表達，不管是基於規則來理解自然語言還是通過機器學習來學習數據內在的特征都顯得比較困難。

2.錯別字

在處理文本時，我們會發現有大量的錯別字，怎麽樣讓計算機理解這些錯別字想表達的真正含義，也是NLP的壹大難點

3.新詞

我們處在互聯網高速發展的時代，網上每天都會產生大量的新詞，我們如何快速地發現這些新詞，並讓計算機理解也是NLP的難點

4.用詞向量來表示詞依然存在不足

上述，我們講到，我們是通過詞向量來讓計算機理解詞，但是詞向量所表示的空間，它是離散，而不是連續，比如表示壹些正面的詞：好，很好，棒，厲害等，在“好”到“很好”的詞向量空間中，妳是不能找到壹些詞，從“好”連續到“很好”，所以它是離散、不連續的，不連續最大的問題就是不可導.計算機是處理可導的函數非常容易，不可導的話，計算量就上來了。當然現在也有壹些算法是計算詞向量做了連續近似化，但這肯定伴隨著信息的損失。總之，詞向量並不是最好的表示詞的方式，需要壹種更好的數學語言來表示詞，當然可能我們人類的自然語言本身就是不連續的，或者人類無法創建出“連續”的自然語言。

小結：通過上述的內容，我們已經大概知道了“NLP是什麽、能做什麽以及目前存在的難題”。作為人工智能產品經理，了解NLP技術能夠提高我們自己的技術理解力，在理解行業需求、推進項目開展都有非常大的幫助，其實這可以讓我們獲得是壹種連接能力，將需求與工程師連接起來，將問題與解決方案連接起來。雖然NLP等人工智能技術存在很多不足，但我們需要調整好自己的心態，人工智能應用化才剛剛開始，必然是不夠完美的，不要成為批判者，而是成為人工智能時代的推進者。

nt-sizf@?2W?