當前位置:成語大全網 - 成語詞典 - 如何給語料分類,語料分類的原則和標準

如何給語料分類,語料分類的原則和標準

語料庫建設中涉及的主要問題包括:

(1)

設計和規劃:主要考慮語料庫的用途、類型、規模、實現手段、質量保證、可擴展性等。

(2)

語料的采集:主要考慮語料獲取、數據格式、字符編碼、語料分類、文本描述,以及各類語料的比例以保持平衡性等。

(3)

語料的加工:包括標註項目(詞語單位、詞性、句法、語義、語體、篇章結構等)標記集、標註規範和加工方式。

(4)

語料管理系統的建設:包括數據維護(語料錄入、校對、存儲、修改、刪除及語料描述信息項目管理)、語料自動加工(分詞、標註、文本分割、合並、標記處理等)、用戶功能(查詢、檢索、統計、打印等)。

(5)

語料庫的應用:針對語言學理論和應用領域中的各種問題,研究和開發處理語料的算法和工具。

我國語料庫的建設始於80年代,當時的主要目標是漢語詞匯統計研究。進入90年代以後,語料庫方法在自然語言信息處理領域得到了廣泛的應用,建立了各種類型的語料庫,研究的內容涉及語料庫建設中的各個問題。90年代末到新世紀初這幾年是語料庫開發和應用的進壹步發展時期,除了語言信息處理和言語工程領域以外,語料庫方法在語言教學、詞典編纂、現代漢語和漢語史研究等方面也得到了越來越多的應用。

語料庫與語言信息處理有著某種天然的聯系。當人們還不了解語料庫方法的時候,在自然語言理解和生成、機器翻譯等研究中,分析語言的主要方法是基於規則的(Rule-based)。對於用規則無法表達或不能涵蓋的語言事實,計算機就很難處理。語料庫出現以後,人們利用它對大規模的自然語言進行調查和統計,建立統計語言模型,研究和應用基於統計的(Statistical-based)語言處理技術,在信息檢索、文本分類、文本過濾、信息抽取等應用方向取得了進展。另壹方面,語言信息處理技術的發展也為語料庫的建設提供了支持。從字符編碼、文本輸入和整理,語料的自動分詞和標註,到語料的統計和檢索,自然語言信息處理的研究都為語料的加工提供了關鍵性的技術。