如何給語料分類，語料分類的原則和標準

語料庫建設中涉及的主要問題包括：

（1）

設計和規劃：主要考慮語料庫的用途、類型、規模、實現手段、質量保證、可擴展性等。

（2）

語料的采集：主要考慮語料獲取、數據格式、字符編碼、語料分類、文本描述，以及各類語料的比例以保持平衡性等。

（3）

語料的加工：包括標註項目（詞語單位、詞性、句法、語義、語體、篇章結構等）標記集、標註規範和加工方式。

（4）

語料管理系統的建設：包括數據維護（語料錄入、校對、存儲、修改、刪除及語料描述信息項目管理）、語料自動加工（分詞、標註、文本分割、合並、標記處理等）、用戶功能（查詢、檢索、統計、打印等）。

（5）

語料庫的應用：針對語言學理論和應用領域中的各種問題，研究和開發處理語料的算法和工具。

我國語料庫的建設始於80年代，當時的主要目標是漢語詞匯統計研究。進入90年代以後，語料庫方法在自然語言信息處理領域得到了廣泛的應用，建立了各種類型的語料庫，研究的內容涉及語料庫建設中的各個問題。90年代末到新世紀初這幾年是語料庫開發和應用的進壹步發展時期，除了語言信息處理和言語工程領域以外，語料庫方法在語言教學、詞典編纂、現代漢語和漢語史研究等方面也得到了越來越多的應用。

語料庫與語言信息處理有著某種天然的聯系。當人們還不了解語料庫方法的時候，在自然語言理解和生成、機器翻譯等研究中，分析語言的主要方法是基於規則的（Rule-based）。對於用規則無法表達或不能涵蓋的語言事實，計算機就很難處理。語料庫出現以後，人們利用它對大規模的自然語言進行調查和統計，建立統計語言模型，研究和應用基於統計的（Statistical-based）語言處理技術，在信息檢索、文本分類、文本過濾、信息抽取等應用方向取得了進展。另壹方面，語言信息處理技術的發展也為語料庫的建設提供了支持。從字符編碼、文本輸入和整理，語料的自動分詞和標註，到語料的統計和檢索，自然語言信息處理的研究都為語料的加工提供了關鍵性的技術。