當前位置:成語大全網 - 書法字典 - 自然語言處理-4。語料庫和語言知識庫

自然語言處理-4。語料庫和語言知識庫

語料庫在語言研究中有著廣泛的應用:語言習得、方言學、語言教學、句法語義、語音研究等。

(1)計算機的快速發展;

(2)轉換生成語言學對語料庫語言學的批評並不總是正確的(例如指責計算機分析語料庫是偽技術),有些是片面的甚至錯誤的(例如否認語料庫數據的價值)。

兩層含義:壹是指同壹種語言的語料庫中的排比。例如,國際英語語料庫有20個平行子語料庫,它們來自英語為母語或官方語言和主要語言的國家,如英國、美國、加拿大、澳大利亞和新西蘭。其並行性表現為語料選擇的時間、對象、比例、文本數量和文本長度幾乎相同。建立數據庫的目的是對不同國家的英語進行比較研究。

另壹種平行語料庫是指兩種或多種語言之間的平行采樣和處理,例如機器翻譯中的雙語對齊語料庫。

?加拿大議會議事錄(e.html)

?香港特別行政區立法會會議紀要(http://catalog.ldc.upenn.edu/LDC2000T50)

?香港新聞

?香港法律(香港法律)

歷時8年,由兩個階段組成:第壹階段從1996到2000年,主要完成詞法和句法分析層的標註,形成PDT 1.0版本;第二階段,從2000年到2004年,主要標記樹庫的深層語法層的信息,並形成了PDT 2.0版本。

http://www.chineseldc.org(192。168.88.2)