主要通過關鍵詞提取、同義詞識別等技術實現。
本節討論場景:從文本到文本生成。這個場景壹般涉及文本摘要、句子壓縮、文本復制、句子融合等文本處理技術。其中,該部分涉及兩個主要技術:文本摘要和句子復制。如上所述,文本摘要主要涉及關鍵詞抽取、短語抽取、句子抽取等。根據實現方式的不同,句子重復大致可以分為以下幾類:
1.基於同義詞的重寫方法。這也是本節使用的方法,是詞法層面的,可以很大程度上保證替換後的文本與原文語義壹致。缺點會降低句子的流暢性。當然也可以結合隱馬爾可夫模型來糾正句子搭配,提高整體效果。
2.基於模板的重寫方法。這也是本節使用的方式。該方法的基本思想是從大量收集的語料中統計歸納出固定的模板,系統根據輸入句子與模板的匹配情況決定如何生成不同的表達。
3.基於統計模型和語義分析的生成模型重寫方法。這種方法是根據語料庫中的數據獲得大量的轉換概率分布,然後根據已知的先驗知識替換輸入的語料庫。這種方法生成的句子是基於分析結果的,從某種意義上說,是在生成現實分析的指導下實現的。所以重寫生成的句子可能句子結構很好,但是它所依賴的語料庫非常強大,需要人工標註大量數據。對於這些問題,新的深度學習技術可以解決壹些問題。同時,結合知識圖譜的深度學習,可以更好地利用人的知識,最小化對訓練樣本的數據需求。
用拼音生成漢字的場景模式和自動文本生成是壹樣的,都是從給定的文本信息生成其他文本信息。不同的是,前者是生成當前元素對應的漢字,這裏是生成當前元素對應的下壹個漢字。
原則