自頂向下:首先為知識地圖定義本體和數據模式,然後將實體添加到知識庫中。
自底向上(常用):從壹些openurl數據中提取實體,選擇可信度高的加入知識庫,然後構建頂層本體模型。
(1)語義信息抽取;(2)多元數據整合與驗證(知識融合);(3)完成知識圖譜
知識庫分類:
Openurl知識庫:Freebase,Wikidata,DBpedia,YAGO。包含大量半結構化和非結構化數據。
垂直行業知識庫(特定領域):IMDB(影視)、MusicBrainz(音樂)、ConceptNet(概念)等。
基於規則和字典的方法(為目標實體編寫模板,然後進行匹配):編寫大量的規則或模板,覆蓋面有限,難以適應新的需求。
基於統計機器學習(機器學習、訓練模型、識別實體)的方法:監督學習算法受訓練集限制,準確率和召回率都不理想。
(召回率:真陽性/真陽性+假陽性;準確度:真陽性+真陰性/真陽性+假陽性+真陰性+假陰性)
面向開放領域的抽取方法(針對海量Web語料):通過少量實體實例建立特征模型,然後將其應用於新的數據集,對新的實體進行分類和聚類。(叠代展開)
前期:手工構建語義規則和模板的方式;
實體之間的關系模型取代了早期的人工構建;
面向開放領域的信息抽取框架(OIE):抽取隱含關系的性能較低。
(隱含關系抽取:壹種基於馬爾可夫邏輯網絡和本體推理的深度隱含關系抽取方法)
實體屬性抽取問題可以轉化為關系抽取問題。
分布式表示的目的是用壹個綜合的向量來表示實體對象的語義信息,在知識圖譜的計算、補全和推理中起著重要的作用。
1,語義相似度計算:實體之間的語義關聯為自然語言處理(NLP)提供了極大的便利。
2、
消除異構數據中實體沖突、方向不明等不壹致問題。
(1)要對齊的數據的分區索引;
(2)利用相似度函數或相似度算法尋找匹配實例;
(3)對齊算法(成對實體對齊和全局(局部)集合實體對齊)用於實例融合。
實體對齊後得到壹系列基本事實,然後事實不等於知識,只是知識的基本單位。
本體相當於知識庫的模具,使其層次結構強,冗余少。
可以分為手動構建和數據驅動的自動構建。
數據驅動的本體自動構建:
①垂直概念間並置關系的計算:計算兩個實體間並置關系的相似度,在語義層面區分是否屬於同壹概念。
(2)實體上下位關系的提取。
③本體生成:對各級獲取的概念進行聚類,為每類實體賦予1個或以上的公共* * *修飾語。
它通常與實體對齊任務壹起執行:量化知識可信度,保留高可信度的知識,丟棄低可信度的知識。
主要包括模式層和數據層的更新。
壹階謂詞邏輯、描述邏輯和規則等。
(1)壹階謂詞邏輯:以命題為基礎,命題包括個體(實體)和謂詞(屬性或關系)。
(2)基於描述邏輯的規則推理:是在(1)的基礎上發展起來的,旨在尋求知識表示能力和推理復雜度之間的平衡。
(3)通過本體的概念層次進行推理。
壹些算法主要使用關系路徑中的隱含信息:
圖中兩個實體之間的語義關系是通過它們之間的多步路徑來預測的,即從源節點出發,按照路徑建模算法在圖上行走。如果可以到達目標節點,則假定在源節點和目標節點之間存在連接。
(關系路徑的建模研究還處於初級階段,需要進壹步探索。)
參考資料:
[1]徐增林,盛,,何,,王。知識圖譜技術綜述[J].電子科技大學學報,2016,45(04):589-606。