於是我看了很多文獻和技術科普,也咨詢了身邊都是AI的技術生,從中大致了解了“知識圖譜”的壹些原理,整理了以下文章。
希望我的文章能幫助非技術產品經理,或者其他崗位的同學,更簡單快捷的理解什麽是“知識圖譜”。
在介紹知識地圖之前,先說壹下知識地圖在日常生活中的使用。
再比如,在線醫療行業,患者想掛號卻不知道掛哪個科室的時候,可以通過預診助手獲取科室信息。預診助手基於專業的醫療知識圖譜,利用多種算法模型和多輪智能溝通,了解患者病情,根據患者病情精準匹配醫療科室。
以支付寶為例。在支付場景下,利用知識圖譜將票據詐騙、信用卡套現等行為扼殺在搖籃裏。通過知識圖譜的圖譜數據庫,針對不同的個體和群體進行關聯分析,可以從人物在指定時間內的行為來判斷用戶,比如去過的地方的IP地址,使用過的MAC地址(包括手機、PC、WIFI等。),社交網絡的相關性分析,銀行賬戶之間是否有歷史交易信息。
在描述定義之前,我們先來看看知識圖譜3354 [E-R圖]的表示方式:
從上圖可以發現,E-R圖無論變換成什麽形狀和外觀,都是由多個點和線連接而成的關系網絡。
我們稱之為點[實體]和線[關系],每個實體可能與壹個或多個實體相關。基於此,要形成最簡單的關系網絡,只需要三個要素:兩個實體和壹個關系。這個結構叫做“三元組”,多個三元組形成壹個知識圖譜。
(三次)
比如“小方和小明是同事,兩人都因為工作需要買筆記本。”小明覺得用蘋果筆記本會更有說服力,就下手了,而小方覺得聯想筆記本更便宜,就選了聯想。後來小方發現同事安利看過的軟件草圖只有蘋果上有。它比Axure更智能,更容易使用。”從這句話中,我們可以拆解出多個三元組:
知識地圖三元組不僅可以表達實體之間的關系,還可以表達實體的壹些屬性。比如“小明”是壹個實體,他的“性別、出生年月、籍貫”可以歸為屬性。
事物被定義為實體的“屬性”,有兩個基本原則:
同時值得註意的是,根據實際情況,實體有時可以是屬性,屬性也可以是實體。
下圖是壹個例子:“員工”是壹個實體,“員工編號、姓名、年齡”是員工的屬性。如果“職稱”沒有與“工資、崗位津貼、福利”掛鉤,換句話說,它沒有可以進壹步描述的特征,那麽按照1的標準,它可以視為員工實體的壹種屬性。
但是,如果不同的職稱有不同的工資、崗位津貼和不同的附加福利,那麽把職稱作為壹個實體來處理更為合適。
說了這麽多,妳應該能更好的理解知識地圖的定義了:知識地圖是壹個結構化的語義知識庫,用來以符號的形式描述物理世界中的概念及其關系。它的基本構成單位是“實體-關系-實體”三元組,以及實體及其相關的屬性-值對。實體通過關系相互連接,形成網絡知識結構。
了解知識地圖的構建可以幫助我們更好地理解知識地圖的使用原理。
知識地圖的構建過程可以概括為三種方式:
為了介紹每個步驟及其意義,我編制了下表:
非商業轉載請註明出處。
下圖是知識地圖的技術框架,可以幫助妳更好的理解知識地圖構建的過程。虛線框中的部分是知識地圖構建和知識地圖更新的過程。
1)構建知識圖譜需要什麽樣的數據?
答案是:結構化數據。
壹般來說,知識地圖的原始數據有三種:結構化數據和非結構化數據。
所謂結構化數據,是指高度組織化、格式整齊的數據,是壹種可以放入電子表格的數據類型。典型的結構化數據包括:信用卡號、日期、財務金額、電話號碼、地址、產品名稱等。
相比之下,非結構化數據是指不容易組織或格式化的數據。它沒有預定義的數據模型,所以不方便用數據庫的二維邏輯表來表示數據。它可以是文本的或非文本的,人工的或機器生成的。
簡單來說,非結構化數據就是具有可變字段的數據,主要是壹些文檔、文檔等。比如壹些合同文件、文章、PDF文檔等。
半結構化數據是非關系型的,具有基本的固定結構模式,如日誌文件、XML文檔、JSON文檔等。
對於非結構化數據和半結構化數據,我們需要確認可以從中提取哪些信息,並制定信息錄入規則。在NLP等技術的幫助下,可以將有效信息生成結構化數據,然後將結構化數據納入知識圖譜。
2)圖形數據庫和關系數據庫的區別
知識地圖是基於圖形數據庫來存儲數據的。所謂圖形數據庫,不是指存儲圖片和圖像的數據庫,而是指存儲圖形的數據結構的數據庫。我們之前講的E-R圖就是圖形數據的可視化展示。關於
與使用二維表存儲數據的傳統關系數據庫不同,圖數據庫傳統上被歸類為NoSQ。
l(不僅僅是SQL)數據庫,也就是說圖形數據庫屬於非關系數據庫。為了避免過於技術化,這裏就不深入介紹圖數據了,簡單說說下面的數據庫和關系數據庫的區別。
關系數據庫不擅長處理數據之間的關系,而圖數據庫在處理數據之間的關系方面靈活高效。
傳統的關系數據庫在處理復雜的關系數據時性能較差,因為關系數據庫通過外鍵的約束來實現多個表之間的關系引用。查詢實體間的關系需要JOIN操作,通常非常耗時。
圖形數據庫最初的設計動機是為了更好地描述實體之間的關系。圖數據庫和關系數據庫的最大區別是無索引鄰接。圖數據模型中的每個節點都會維護其相鄰節點關系,這意味著查詢時間與圖的整體大小無關,只與每個節點的相鄰點數有關,這使得圖數據庫在處理大量復雜關系時保持了良好的性能。
另外,圖的結構決定了它容易擴展。我們不必在模型設計之初就考慮所有的細節,因為以後添加新節點、新關系、新屬性甚至新標簽都很容易,也不會破壞現有的查詢和使用功能。
在關系數據庫中,如果壹開始就設計好了數據字段,運行壹段時間後,再添加更多的字段會很麻煩。開發者或產品經理需要在開發初期就設想好未來可能添加的字段,提前添加到數據表中。
次級圖形數據庫
通俗易懂的知識圖。
什麽是圖形數據庫?
題圖來自Unsplash,基於CC0協議。
相關問答:PC端,是什麽意思?PC終端是與移動終端相對應的名詞,指的是網絡世界中可以連接電腦主機的端口。它是基於計算機的接口系統,不同於移動終端的手機接口系統。其實PC的英文全稱是:Personal Computer,翻譯成中文就是:個人電腦或個人電腦。PC是壹個含義很廣的詞,也是計算機的統稱。目前,個人電腦有很多種,如傳統的臺式電腦、DIY電腦、筆記本電腦,以及近年來開始流行的平板電腦、壹體機、超極本、掌上電腦和嵌入式電腦。換句話說,PC是壹個廣義的詞,屬於計算機的總稱。