目錄
1.什麽是知識地圖?
2.知識地圖的表示
3.知識地圖的存儲
4.應用
5.挑戰
6.結論
1.什麽是知識地圖?
知識地圖本質上是壹個語義網絡,是壹個基於圖的數據結構,由節點和邊組成。在知識圖譜中,每個節點代表現實世界中存在的“實體”,每條邊就是實體之間的“關系”。知識地圖是表達關系最有效的方式。壹般來說,知識地圖是壹個將所有不同類型的信息連接在壹起的關系網絡。知識圖譜提供了從“關系”的角度分析問題的能力。
知識圖譜的概念最早由Google提出,主要用於優化現有的搜索引擎。與傳統的基於關鍵詞搜索的搜索引擎不同,知識圖譜可以更好地查詢復雜的相關信息,從語義層面理解用戶意圖,提高搜索質量。比如在谷歌的搜索框中輸入比爾·蓋茨,搜索結果頁面右側會出現與比爾·蓋茨相關的信息,比如出生日期、家庭情況等等。
此外,對於“誰是比爾·蓋茨的妻子”等稍微復雜的搜索句子,谷歌也能準確返回他的妻子梅林達·蓋茨。這說明搜索引擎通過知識圖譜真正理解了用戶的意圖。
上面提到的知識圖譜都屬於更廣泛的範疇,解決的是通用領域的搜索引擎優化和問答系統的問題。接下來,我們來看看特定領域知識圖譜在特定領域的表示和應用,這也是業界關註的話題。
2.知識地圖的表示
假設我們用知識圖譜來描述壹個事實)-“張三是李四的父親”。這裏的實體是張三和李四,關系是“父親”(is_father_of)。當然,張三和李四也可能和其他人有某種關系(暫時不考慮)。當我們將電話號碼作為節點添加到知識圖譜中時(電話號碼也是實體),我們還可以定義壹個人與電話的關系,稱為has_phone,這意味著壹個電話號碼屬於某個人。下圖顯示了這兩種不同的關系。
另外,我們可以在has_phone關系中添加time作為屬性,表示電話號碼開放的時間。這種屬性不僅可以添加到關系中,也可以添加到實體中。當所有這些信息作為關系或實體的屬性添加時,得到的映射稱為屬性圖。屬性圖和傳統的RDF格式都可以作為知識圖的表示和存儲方式,但兩者還是有區別的,後面的章節會簡單說明。
3.知識地圖的存儲
知識地圖是壹種基於圖的數據結構,其存儲方式主要有兩種形式:RDF存儲格式和圖數據庫。至於他們的區別,請參考1。下面的曲線顯示了近年來各種數據存儲類型的發展。從這裏,我們可以清楚地看到基於圖的存儲在整個數據庫存儲領域的快速發展。這個圖表來自於graph DBMS在過去的兩年裏增加了500%的受歡迎程度。
以下列表顯示了目前流行的基於圖存儲的數據庫排名。從這個排名可以看出,Secondary在整個圖存儲領域占據了第1號的位置,Jena仍然是RDF領域最受歡迎的存儲框架。這部分數據來自於DB-Engines排名。
當然,如果要設計的知識圖譜非常簡單,並且查詢不會涉及1度以上的相關查詢,我們也可以選擇使用關系型數據存儲格式來保存知識圖譜。但是對於那些稍微復雜的關系網絡(現實生活中的實體和關系壹般都比較復雜),知識圖譜的優勢還是非常明顯的。首先,與傳統存儲方式相比,聯查的效率會顯著提高。當我們涉及2、3度相關查詢時,基於知識圖譜的查詢效率會高出幾千倍甚至上百萬倍。其次,基於圖的存儲在設計上會非常靈活,壹般只需要局部改動。例如,如果我們有壹個新的數據源,我們只需要將它插入到現有的地圖中。相反,關系存儲模式的靈活性很差,它的所有模式都是事先定義好的,如果要在後面更改,其成本非常高。最後,在圖形數據結構中存儲實體和關系是符合整個故事的邏輯的最佳方式。
4.應用
本文主要探討知識地圖在互聯網金融行業的應用。當然,很多應用場景和思路可以推廣到其他行業。這裏說的應用場景只是冰山壹角。在很多其他應用中,知識圖譜仍然可以發揮其潛在價值,我們將在後續文章中繼續討論。
反欺詐
反欺詐是風險控制中非常重要的壹個環節。基於大數據的反欺詐的難點在於如何整合不同來源(結構化和非結構化)的數據,構建反欺詐引擎,有效識別欺詐案例(如身份欺詐、集團欺詐、代理打包等。).而且很多舞弊案件會涉及復雜的關系網絡,這也給舞弊審計帶來了新的挑戰。知識地圖作為關系的直接表達,可以很好地解決這兩個問題。首先,知識圖譜提供了壹種非常便捷的添加新數據源的方式,前面已經提到了。其次,用知識圖譜本身來表示關系,這種直觀的表示方法可以幫助我們更有效地分析復雜關系中的具體潛在風險。
反欺詐的核心是人。首先,需要打通所有與借款人相關的數據源,構建包含多個數據源的知識圖譜,從而整合成壹個機器能夠理解的結構化知識。這裏不僅可以整合借款人的基本信息(比如申請時填寫的信息),還可以將借款人的消費記錄、行為記錄、上網瀏覽記錄整合到整個知識圖譜中進行分析和預測。這裏的壹個難點是,很多數據是從網絡上獲取的非結構化數據,這些數據需要通過機器學習和自然語言處理技術轉化為結構化數據。
不壹致性驗證
不壹致驗證可以用來判斷壹個借款人的欺詐風險,類似於交叉驗證。比如借款人張三與借款人李四填寫的是同壹個公司電話,但張三填寫的公司與李四填寫的公司完全不同,這就成為壹個風險點,需要審計人員特別關註。
再比如,借款人說張三是朋友,李四是父子關系。當我們試圖將借款人的信息添加到知識圖譜中時,就會觸發“壹致性驗證”引擎。引擎會先讀取張三和李四的關系,驗證這個“三角關系”是否正確。很明顯,朋友的朋友不是父子,所以有明顯的不壹致。
不壹致性驗證涉及知識推理。壹般來說,知識推理可以理解為“鏈接預測”,即從已有的關系圖中推導出新的關系或鏈接。比如上面的例子,如果張三和李四是朋友,張三和借款人也是朋友,那麽我們可以推斷借款人和李四也是朋友。
集團欺詐
相對於虛假身份的識別,群體欺詐的挖掘難度更大。這種組織隱藏在非常復雜的關系網中,不容易被發現。只有梳理出隱藏的關系網絡,才能分析和發現潛在的風險。知識地圖作為壹種自然關系網絡的分析工具,可以幫助我們更容易地識別這種潛在風險。舉個簡單的例子,有些集團詐騙成員會用虛假身份申請貸款,但有些信息是* * * *共享的。下圖大致說明了這種情況。從圖中可以看出,張三、李四、王五三人之間並沒有直接的關系,但是通過關系網,我們很容易看到他們三人都分享了壹些信息,這就立刻讓我們想到了詐騙的風險。雖然群體欺詐有多種形式,但可以肯定的是,知識圖譜將提供比其他任何工具更好、更方便的分析方法。
異常檢測
異常分析是數據挖掘領域的壹個重要課題。我們可以簡單的理解為從給定的數據中尋找“異常”點。在我們的應用程序中,這些“異常”點可能與欺詐有關。由於知識圖譜可以看作是壹個圖,所以對知識圖譜的異常分析大多是基於圖的結構。由於知識地圖中不同的實體類型和關系類型,異常分析也需要考慮這些額外的信息。基於圖的異常分析大多計算量較大,可以選擇做離線計算。在我們的應用框架中,異常分析可以分為兩類:靜態分析和動態分析,後面會逐壹討論。
-靜態分析
所謂靜態分析,是指從給定的圖形結構和某個時間點上發現壹些異常點(如異常子圖)。在下圖中,我們可以清楚地看到,其中5個彼此距離非常近,可能是壹個詐騙組織。因此,我們可以對這些異常結構進行進壹步的分析。
-動態分析
所謂動態分析,是指分析其結構隨時間變化的趨勢。我們的假設是,知識圖譜的結構短時間內不會有太大變化。如果變化很大,說明可能存在異常,需要進壹步關註。分析結構隨時間的變化會涉及到時間序列分析技術和圖形相似度計算技術。感興趣的讀者可以參考這些資料。
流失客戶管理
除了貸前的風險控制,知識圖譜還可以在貸後發揮其強大的作用。比如在貸後流失客戶的管理上,知識圖譜可以幫助我們發現更多潛在的新人脈,從而提高催收的成功率。
現實中,很多借款人成功後不還款,玩捉迷藏,聯系不上自己。即使我嘗試聯系借款人提供的其他聯系人,還是聯系不到自己。這就進入了所謂的“失聯”狀態,催收人員無從下手。那麽接下來的問題就是,在失去聯系的情況下,我們有沒有辦法找到新的借款人的聯系方式?而且這群人並沒有作為相關聯系人出現在我們的知識圖譜中。如果能挖掘出更多潛在的新人脈,會大大提高收藏的成功率。比如下圖,借款人和李四有直接關系,但是我們聯系不上李四。是否可以通過對2度關系的分析,預測判斷李四的哪些聯系人可能認識借款人?這涉及到對地圖結構的分析。
智能搜索和可視化顯示
基於知識圖譜,我們還可以提供智能搜索和數據可視化服務。智能搜索的功能類似於知識圖譜在Google和百度上的應用。換句話說,對於搜索到的每壹個關鍵詞,我們都可以通過知識圖譜返回更豐富、更全面的信息。比如搜索壹個人的身份證號,我們的智能搜索引擎可以返回每個實體的所有歷史貸款記錄、聯系方式、行為特征、標簽(如黑名單、同行等。)和這個人有關。另外,可視化的好處不言而喻。通過可視化,把復雜的信息以非常直觀的方式呈現出來,讓我們壹目了然地了解隱藏信息的來龍去脈。
精準營銷
Forrester Research的首席分析師Michele Goetz說:“知識圖表可以讓妳獲取客戶的核心信息,包括他們的姓名、住址、聯系方式,並將其與他們認識的其他人、他們在網上的互動方式等聯系起來。”
壹個聰明的企業可以比競爭對手更有效地挖掘潛在客戶。互聯網時代,營銷手段多種多樣,但無論有多少種方式,都離不開壹個核心——分析用戶,了解用戶。知識圖譜可以結合各種數據源分析實體之間的關系,從而對用戶的行為有更好的理解。比如壹個公司的營銷經理,利用知識圖譜分析用戶之間的關系,發現壹個組織的異同,從而制定針對某壹類人群的營銷策略。只有更好的了解用戶的需求,才能更好的做營銷。
5.挑戰
知識圖譜還沒有在工業界廣泛應用。即使壹些企業試圖向這個方向發展,但許多仍處於研究階段。主要原因是很多企業對知識圖譜不了解或理解不深入。但有壹點是肯定的,知識圖譜將在未來幾年內成為業界流行的工具,從目前的趨勢來看很容易預測。當然,知識圖譜畢竟是壹個比較新的工具,在實際應用中肯定會涉及到或多或少的挑戰。
數據噪聲
首先,數據中有很多噪音。即使數據已經存在於數據庫中,我們也不能保證其100%的準確性。這裏主要從兩個方面來說。第壹,目前積累的數據存在錯誤,這部分錯誤數據需要糾正。最簡單的糾正方法是進行離線不壹致驗證,前面已經提到了。第二,數據冗余。如借款人張三填寫公司名稱“普惠”,借款人李四填寫公司名稱“普惠金融”,借款人王武填寫公司名稱“普惠金融信息服務有限公司”。雖然三個人都屬於同壹家公司,但是因為填寫了不同的名字,電腦會認為他們來自不同的公司。那麽接下來的問題就是,如何從海量的數據中找到這些模棱兩可的名字,合並成壹個名字?這就涉及到自然語言處理中的“消歧分析”技術。
非結構化數據處理能力
在大數據時代,大量的數據都是未經處理的非結構化數據,比如文本、圖片、音頻、視頻等等。尤其是在互聯網金融行業,我們經常會面對大量的文本數據。如何從這些非結構化的數據中提取有價值的信息是壹項非常具有挑戰性的工作,這對掌握機器學習、數據挖掘和自然語言處理能力提出了更高的門檻。
知識推理
推理能力是人類智能的重要特征,它使我們能夠從已有的知識中發現隱含的知識。壹般的推理往往需要壹些規則的支持。比如朋友的朋友可以推斷出朋友的關系,父親的父親可以推斷出爺爺的關系。比如張三的很多朋友也是李四的朋友,那麽我們可以推測張三和李四很可能是朋友。當然,這裏會有壹個概率的問題。當信息量特別大的時候,如何將這個邊信息和推理算法有效的結合起來是最關鍵的。常用的推理算法包括基於邏輯的推理和基於分布式表示的推理。隨著深度學習在人工智能領域的地位越來越重要,基於分布式表示方法的推理也成為研究熱點。如果有興趣,可以參考目前該領域的工作進展4、5、6、7。
大數據、小樣本、有效的生態閉環是關鍵。
雖然現在可獲得的數據量是巨大的,但我們仍然面臨著小樣本的問題,即樣本數量少。假設我們需要建立壹個基於機器學習的反欺詐評分系統,我們首先需要壹些欺詐樣本。但實際上我們能拿到的造假樣本數量很少。即使有幾百萬的貸款申請,我們最終標註為欺詐的樣本也很可能只有幾萬個。這對機器學習的建模提出了更高的挑戰。我們以很高的價格得到了所有的欺詐樣本。隨著時間的推移,我們必然會收集到更多的樣本,但樣本的增長空間仍然有限。這不同於傳統的機器學習系統,比如圖像識別,得到幾十萬甚至上百萬的樣本並不困難。
在這種小樣本條件下,構建有效的生態閉環顯得尤為重要。所謂生態閉環,是指構建壹個有效的自我反饋系統,能夠實時反饋給我們的模型,讓模型不斷自我優化,提高精度。為了建立這種自學習系統,我們不僅要改進現有的數據流系統,還要深入到各個業務線,優化相應的流程。這也是整個反欺詐環節的壹個必經過程,要知道整個過程充滿了博弈。所以我們需要通過反饋信號不斷調整策略。
6.結論
知識圖譜越來越受到學術界和工業界的關註。除了本文提到的應用,知識地圖還可以應用於權限管理、人力資源管理等不同領域。這方面的應用將在後續文章中詳細討論。
參考
1De Abreu,d .,Flores,a .,帕爾馬,g .,佩斯塔納,v .,Pinero,j .,Queipo,j ....& amp維達爾,M. E. (2013)。在圖形數據庫和RDF引擎之間選擇消費和挖掘鏈接數據。寒冷中。
2用戶行為教程
3劉誌遠知識圖譜——機器大腦中的知識庫第二章知識圖譜——機器大腦中的知識庫
4鎳,m,墨菲,k,特雷普,v。知識圖的關系機器學習評論。
5Socher,r,陳,d,曼寧,C. D。Ng,A. (2013)。基於神經張量網絡的知識庫完備化推理。神經信息處理系統進展(926-934頁)。
6Bordes,a .,Usunier,n .,Garcia-Duran,a .,Weston,j .雅克年科,O. (2013)。翻譯用於多關系數據建模的嵌入。神經信息處理系統進展(第2787-2795頁)。
7傑納頓,r,魯,N. L .,博德斯,a。Obozinski,G. R. (2012)。高度多關系數據的潛在因素模型。神經信息處理系統進展(第3167-3175頁)。