本文主要基於歷史文章中人物關系的提取,數據來源於和/
克拉斯
本質上,這種抽取仍然是壹個基於LSTM的分類問題。至於CRF層,完全是為了保證序列輸出的嚴格性,因為CRF對預測序列有很強的限制,比如B-PRESON之後的I-PERSON或者O。
關於訓練數據,沒有找到合適的標註數據,只好自己標註,如下:
主要是低頻詞過濾、詞到id映射(word2id)和預測類別到id映射(lable2id),具體實現方式不壹樣,就不重點介紹了,但是要特別註意對未註冊詞的處理:
通過字典將輸入文本轉換成數字序列;
為了保證數據維度的壹致性,進行了句子填充。
簡單的測試結果如下:
相對簡單的句子可以取得很好的效果,但是由於訓練數據不足,仍然會出現無法提取結果或者提取錯誤的情況,比如:
本文主要針對提取歷史故事中的人物關系,從數據獲取到數據標註再到模型訓練。由於時間和人力的關系,很多方面都采用了簡單的模式,比如數據標註,數據量遠沒有達到壹個數量級。比如在測試過程中,主要是通過人工觀察提取的結果來驗證是否準確,無法達到工業水平。但是對於三元組的提取,可以作為參考。