當前位置:成語大全網 - 成語詞典 - 語言模型訓練工具srilm

語言模型訓練工具srilm

srilm是著名的約翰霍普金斯夏季研討會(Johns Hopkins Summer Workshop)的產物,誕生於1995年,由SRI實驗室的Andreas Stolcke負責開發維護。

srilm支持語言模型的估計和評測。估計是從訓練數據(訓練集)中得到壹個模型,包括最大似然估計及相應的平滑算法;而評測則是從測試集中計算其困惑度。

其中,-vocab train.dict中 train.dict為詞典文件,每行壹個詞,格式如下:

-text train.txt 中 train.txt為語料庫文件,每行中的詞用空格隔開,表示分詞結果,格式如下:

-order 最大的n元模型,3表示unigram,bigram,trigram

-write train.count 統計文件寫到train.count中

-unk 表示沒有在詞典中的詞用<unk>表示

train.count中的內容如下(每行格式為:ngram 詞頻):

其中,-read train.count 讀取上壹步生成的統計文件

-lm train.lm 生成最高為trigram的語言模型train.lm

-interpolate 利用差值算法

生成的語言模型train.lm為ARPA格式的語言模型,如下:

上面的兩個步驟可以直接生成,如下:

上面已經生成了語言模型train.lm,利用它來測試數據的困惑度

測試數據的格式同語料數據,每個句子內部用空格隔開表示分詞。

結果如下:

參考