當前位置:成語大全網 - 成語詞典 - 知識抽取的關鍵技術是哪三個?

知識抽取的關鍵技術是哪三個?

知識抽取的關鍵技術是:實體抽取、關系抽取、屬性抽取。

實體抽取:在技術上更多稱為NER(Named Entity Recognition,命名實體識別),指的是從原始語料中自動識別出命名實體。由於實體是知識圖譜中的最基本元素,其抽取的完整性、準確、召回率等將直接影響到知識庫的質量。因此,實體抽取是知識抽取中最為基礎與關鍵的壹步;

關系抽取(Relation Extraction):目標是解決實體間語義鏈接的問題,早期的關系抽取主要是通過人工構造語義規則以及模板的方法識別實體關系。隨後,實體間的關系模型逐漸替代了人工預定義的語法與規則。

屬性抽取:屬性抽取主要是針對實體而言的,通過屬性可形成對實體的完整勾畫。由於實體的屬性可以看成是實體與屬性值之間的壹種名稱性關系,因此可以將實體屬性的抽取問題轉換為關系抽取問題。

在此過程後還包含了實體統壹技術和指代消融技術,以提高知識提取的實體的實體統壹和指代消融。指代消解和實體統壹是知識抽取中比較難的環節。

實體統壹(Entity Resolution)指的是同壹個本本中可能有不同的寫法,比如說“LBJ”就是詹姆斯的縮寫,因此“勒布朗詹姆斯”和“LBJ”指的就是同壹個實體,實體統壹就是處理這樣問題的壹項技術。