知識圖譜-LSTM+CRF知識抽取實踐

本文的思想主要來源於LSTM+條件隨機場的命名實體識別。在命名實體識別中，人名、地名、機構名或其他專有名詞都可以通過BIO或BIOSE等標註來識別，所以可以把主語、謂語、賓語(也可以理解為實體-關系-實體)作為三個專有名詞來提取三元組進行識別。

本文主要基於歷史文章中人物關系的提取，數據來源於和/

克拉斯

本質上，這種抽取仍然是壹個基於LSTM的分類問題。至於CRF層，完全是為了保證序列輸出的嚴格性，因為CRF對預測序列有很強的限制，比如B-PRESON之後的I-PERSON或者O。

關於訓練數據，沒有找到合適的標註數據，只好自己標註，如下:

主要是低頻詞過濾、詞到id映射(word2id)和預測類別到id映射(lable2id)，具體實現方式不壹樣，就不重點介紹了，但是要特別註意對未註冊詞的處理:

通過字典將輸入文本轉換成數字序列；

為了保證數據維度的壹致性，進行了句子填充。

簡單的測試結果如下:

相對簡單的句子可以取得很好的效果，但是由於訓練數據不足，仍然會出現無法提取結果或者提取錯誤的情況，比如:

本文主要針對提取歷史故事中的人物關系，從數據獲取到數據標註再到模型訓練。由於時間和人力的關系，很多方面都采用了簡單的模式，比如數據標註，數據量遠沒有達到壹個數量級。比如在測試過程中，主要是通過人工觀察提取的結果來驗證是否準確，無法達到工業水平。但是對於三元組的提取，可以作為參考。