當前位置:成語大全網 - 漢語詞典 - 知識圖譜-LSTM+CRF知識抽取實踐

知識圖譜-LSTM+CRF知識抽取實踐

本文的思想主要來源於LSTM+條件隨機場的命名實體識別。在命名實體識別中,人名、地名、機構名或其他專有名詞都可以通過BIO或BIOSE等標註來識別,所以可以把主語、謂語、賓語(也可以理解為實體-關系-實體)作為三個專有名詞來提取三元組進行識別。

本文主要基於歷史文章中人物關系的提取,數據來源於和/

克拉斯

本質上,這種抽取仍然是壹個基於LSTM的分類問題。至於CRF層,完全是為了保證序列輸出的嚴格性,因為CRF對預測序列有很強的限制,比如B-PRESON之後的I-PERSON或者O。

關於訓練數據,沒有找到合適的標註數據,只好自己標註,如下:

主要是低頻詞過濾、詞到id映射(word2id)和預測類別到id映射(lable2id),具體實現方式不壹樣,就不重點介紹了,但是要特別註意對未註冊詞的處理:

通過字典將輸入文本轉換成數字序列;

為了保證數據維度的壹致性,進行了句子填充。

簡單的測試結果如下:

相對簡單的句子可以取得很好的效果,但是由於訓練數據不足,仍然會出現無法提取結果或者提取錯誤的情況,比如:

本文主要針對提取歷史故事中的人物關系,從數據獲取到數據標註再到模型訓練。由於時間和人力的關系,很多方面都采用了簡單的模式,比如數據標註,數據量遠沒有達到壹個數量級。比如在測試過程中,主要是通過人工觀察提取的結果來驗證是否準確,無法達到工業水平。但是對於三元組的提取,可以作為參考。