摘要:
自然語言處理是計算機科學領域與人工智能領域中的壹個重要方向。它研究能實現人與計算機之間用自然語言進行有效通信的各種理論和方法。自然語言處理是壹門融語言學、計算機科學、數學等於壹體的科學。因此,這壹領域的研究將涉及自然語言,即人們日常使用的語言,所以它與語言學的研究有著密切的聯系,但又有重要的區別。自然語言處理並不是壹般地研究自然語言,而在於研制能有效地實現自然語言通信的計算機系統,特別是其中的軟件系統。因而它是計算機科學的壹部分。
1 計算機對自然語言處理的過程
1.1把需要研究是問題在語言上建立形式化模型,使其可以數學形式表示出來,這個過程稱之為"形式化"
1.2把數學模型表示為算法的過程稱之為"算法化"
1.3根據算法,計算機進行實現,建立各種自然語言處理系統,這個過程是"程序化"
1.4對系統進行評測和改進最終滿足現實需求,這個過程是"實用化"
2 自然語言處理涉及的知識領域
語言學、計算機科學(提供模型表示、算法設計、計算機實現)、數學(數學模型)、心理學(人類言語心理模型和理論)、哲學(提供人類思維和語言的更深層次理論)、統計學(提供樣本數據的預測統計技術)、電子工程(信息論基礎和語言信號處理技術)、生物學(人類言語行為機制理論)。故其為多邊緣的交叉學科
3 自然語言處理涉及的範圍
3.1語音的自動合成與識別、機器翻譯、自然語言理解、人機對話、信息檢索、文本分類、自動文摘等等,總之分為四大方向:
語言學方向
數據處理方向
人工智能和認知科學方向
語言工程方向
3.2也可細分為13個方面
口語輸入:語音識別、信號表示、魯棒的語音識別、語音識別中的隱馬爾科夫模型方法、語言模型、說話人識別、口語理解
書面語輸入:文獻格式識別、光學字符識別(OCR):印刷體識別/手寫體識別、手寫界面、手寫文字分析
語言分析理解:小於句子單位的處理、語法的形式化、針對基於約束的語法編寫的詞表、計算語義學、句子建模和剖析技術、魯棒的剖析技術
語言生成:句法生成、深層生成
口語輸入技術:合成語音技術、語音合成的文本解釋、口語生成
話語分析與對話:對話建模、話語建模口語對話系統
文獻自動處理:文獻檢索、文本解釋:信息抽取、文本內容自動歸納、文本寫作和編輯的計算機支持、工業和企業中使用的受限語言
多語問題的計算機處理:機器翻譯、人助機譯、機助人譯、多語言信息檢索、多語言語音識別、自動語種驗證
多模態的計算機處理:空間和時間表示方法、文本與圖像處理、口語與手勢的模態結合、口語與面部信息的模態結合:面部運動和語音識別
信息傳輸和信息存儲:語音壓縮、語音品質的提升
自然語言處理中的數學方法:統計建模和分類的數學理論、數字信號處理技術、剖析算法的數學基礎研究、神經網絡、有限狀態分析技術、語音和語言處理中的最優化技術和搜索技術
語言資源:書面語料庫、口語語料庫、機器詞典與詞網的建設、術語編撰和術語數據庫、網絡數據挖掘和信息提取
自然語言處理系統的評測:面向任務的文本分析評測、機器翻譯系統和翻譯工具的評測、大覆蓋面的自然語言剖析器的評測、語音識別:評估和評測、語音合成評測、系統的可用性和界面的評測、語音通信質量的評測、文字識別系統的評測
?4?自然語言處理的發展的幾個特點
基於句法-語義規則的理性主義方法受到質疑,隨著語料庫建設和語料庫語言學 的崛起,大規模真實文本的處理成為自然語言處理的主要戰略目標。
自然語言處理中越來越多地使用機器自動學習的方法來獲取語言知識。
統計數學方法越來越受到重視。
自然語言處理中越來越重視詞匯的作用,出現了強烈的"詞匯主義"的傾向。
最後,妳了解了嗎。