基礎知識-知識地圖

知識地圖的構建形式:

自頂向下:首先為知識地圖定義本體和數據模式，然後將實體添加到知識庫中。

自底向上(常用):從壹些openurl數據中提取實體，選擇可信度高的加入知識庫，然後構建頂層本體模型。

(1)語義信息抽取；(2)多元數據整合與驗證(知識融合)；(3)完成知識圖譜

知識庫分類:

Openurl知識庫:Freebase，Wikidata，DBpedia，YAGO。包含大量半結構化和非結構化數據。

垂直行業知識庫(特定領域):IMDB(影視)、MusicBrainz(音樂)、ConceptNet(概念)等。

基於規則和字典的方法(為目標實體編寫模板，然後進行匹配):編寫大量的規則或模板，覆蓋面有限，難以適應新的需求。

基於統計機器學習(機器學習、訓練模型、識別實體)的方法:監督學習算法受訓練集限制，準確率和召回率都不理想。

(召回率:真陽性/真陽性+假陽性；準確度:真陽性+真陰性/真陽性+假陽性+真陰性+假陰性)

面向開放領域的抽取方法(針對海量Web語料):通過少量實體實例建立特征模型，然後將其應用於新的數據集，對新的實體進行分類和聚類。(叠代展開)

前期:手工構建語義規則和模板的方式；

實體之間的關系模型取代了早期的人工構建；

面向開放領域的信息抽取框架(OIE):抽取隱含關系的性能較低。

(隱含關系抽取:壹種基於馬爾可夫邏輯網絡和本體推理的深度隱含關系抽取方法)

實體屬性抽取問題可以轉化為關系抽取問題。

分布式表示的目的是用壹個綜合的向量來表示實體對象的語義信息，在知識圖譜的計算、補全和推理中起著重要的作用。

1，語義相似度計算:實體之間的語義關聯為自然語言處理(NLP)提供了極大的便利。

2、

消除異構數據中實體沖突、方向不明等不壹致問題。

(1)要對齊的數據的分區索引；

(2)利用相似度函數或相似度算法尋找匹配實例；

(3)對齊算法(成對實體對齊和全局(局部)集合實體對齊)用於實例融合。

實體對齊後得到壹系列基本事實，然後事實不等於知識，只是知識的基本單位。

本體相當於知識庫的模具，使其層次結構強，冗余少。

可以分為手動構建和數據驅動的自動構建。

數據驅動的本體自動構建:

①垂直概念間並置關系的計算:計算兩個實體間並置關系的相似度，在語義層面區分是否屬於同壹概念。

(2)實體上下位關系的提取。

③本體生成:對各級獲取的概念進行聚類，為每類實體賦予1個或以上的公共* * *修飾語。

它通常與實體對齊任務壹起執行:量化知識可信度，保留高可信度的知識，丟棄低可信度的知識。

主要包括模式層和數據層的更新。

壹階謂詞邏輯、描述邏輯和規則等。

(1)壹階謂詞邏輯:以命題為基礎，命題包括個體(實體)和謂詞(屬性或關系)。

(2)基於描述邏輯的規則推理:是在(1)的基礎上發展起來的，旨在尋求知識表示能力和推理復雜度之間的平衡。

(3)通過本體的概念層次進行推理。

壹些算法主要使用關系路徑中的隱含信息:

圖中兩個實體之間的語義關系是通過它們之間的多步路徑來預測的，即從源節點出發，按照路徑建模算法在圖上行走。如果可以到達目標節點，則假定在源節點和目標節點之間存在連接。

(關系路徑的建模研究還處於初級階段，需要進壹步探索。)

參考資料:

[1]徐增林，盛，，何，，王。知識圖譜技術綜述[J].電子科技大學學報，2016，45(04):589-606。