本文主要討論了法律人工智能的歷史、現狀和未來的研究方向。
通過實驗對現有工作進行了深入分析,分析了它們的優缺點,並揭示了未來的研究方向。
可解釋性強的符號模型效率較低,嵌入方法具有更好的性能,但它們通常沒有良好的可解釋性,並且在壹些道德相關問題上存在很大問題:經典的性別和種族偏見。
我們總結了基於符號的方法和基於嵌入的方法面臨的三個主要挑戰:
本文的主要貢獻如下:
單詞和單詞嵌入非常重要。
直接從司法案例的描述中學習專業詞匯是很困難的。為了克服這個困難,我們可以同時捕捉語法信息和司法知識。
知識圖方法在司法領域很有前途,但在實際使用之前,仍有兩個主要挑戰:
這兩個挑戰使得LegalAI通過嵌入進行知識建模變得非常重要。研究人員將在未來努力克服這些困難。
預訓練語言模型(PLM),如BERT,最近專註於許多NLP領域。鑒於預訓練模型的成功,在LegalAI中使用預訓練模型是壹個非常合理和直接的選擇。然而,在司法文本中,仍然存在壹些差異。如果直接使用這些PLM,將導致性能下降。這些差異來自司法文本中包含的術語和知識。為了解決這些問題,鐘(2019)提出了壹種中文裁判文書預訓練模型。為司法領域設計的PLM為法律任務提供了更高質量的基準系統。在實驗中,我們比較了適用於合法任務的不同BERT模型。
為了將來在LegalAI中探索PLM,研究人員可以專註於將知識集成到PLM中。將知識整合到預培訓模型中有助於在司法概念之間進行推理。已經做了大量工作將通用領域集成到模型中。
基於符號的方法也稱為結構化預測方法。
符號化的司法知識包括:事件和關系,可以提供可解釋性。
深度學習方法可用於提高基於符號的方法的性能。
信息抽取在自然語言處理中得到了廣泛的研究。IE強調從文本中提取有價值的信息,以及實體識別、關系提取和事件提取等壹些技術。
為了更好地利用司法文本,研究人員嘗試在LegalAI的命名實體識別任務中使用本體或全局壹致性。為了從司法文本中提取關系和事件,研究人員嘗試使用不同的方法,包括:手工制作的規則、CRF(我不知道這是什麽)、SVM、CNN、GRU等聯合模型或無尺度標識符網絡(我不知道這是什麽)。
現有的工作已經為提高IE的效果做出了很大的努力,但我們需要更多地關註如何很好地利用提取的信息。這些提取的符號具有法律依據,可以為司法適用提供可解釋性。所以我們不能只針對方法的性能。這裏我們展示了兩個使用提取的符號來提高法律可解釋性的示例:
在未來的工作中,我們需要更加關註提取的信息在LegalAI任務中的應用。這些信息的使用取決於特定任務的要求,並且這些信息可以提供更多的可解釋性。
除了NLP中的* * *符號外,LegalAI還有壹個獨特的符號,稱為合法元素。提取合法元素側重於提取壹些關鍵元素,例如是否有人被殺或是否有東西被盜。這些要素是犯罪的基本要素,我們可以根據這些要素直接給犯罪人定罪。使用這些元素不僅可以為判斷和預測任務帶來直接的監督信息,還可以使模型的預測結果更具可解釋性。
從這個例子可以看出,提取的元素可以確定判斷結果。這些元素對下遊任務很有用。
為了更深入地分析基於元素的符號,舒(2019)構建了三個用於提取元素的數據集:離婚糾紛、勞動糾紛和借貸糾紛。這些數據集需要我們檢查相關元素是否滿足,並將此任務標準化為多標簽分類任務。為了展示現有元素提取方法的性能,我們進行了壹系列實驗,如下表所示。
為了測試元素提取,我們在NLP中實現了幾個經典的編碼模型。包括TextCNN、DPCNN、LSTM、BiDAF和BERT。我們使用了兩個不同的Bert預訓練參數(原始BERT,BERT:用中國司法文書訓練的Bert-MS)。從這個結果可以看出,壹般領域的預訓練模型的效果不如特定領域的預訓練模型,這是在LegalAI中推廣PLM的必要性。在接下來的論文中,我們將使用BERT對法律文檔進行預訓練以獲得更好的性能。
從目前元素提取的結果來看,現有方法取得了較好的效果,但在相關應用中仍有不足。這些元素可以被視為預定義的法律知識並幫助下遊任務。如何改善元素提取還需要進壹步研究。
介紹幾種典型應用:
法律判斷預測
相似大小寫匹配
法律問題解答
法律判決預測和相似案例匹配可視為大陸法系和英美法系的核心功能。法律問答可以為不懂法律的人提供咨詢服務。因此,探索這三個任務基本上可以涵蓋LegalAI的大多數方面。
法律裁判保護(LJP)在中國民事法律制度中具有重要地位。在民事法律制度中,判決以事實和法律規定為依據。LJP主要關註的是如何通過事實描述和民法中的相關規定來預測判決。
以下將介紹LJP的研究進展和未來的研究方向。
前期工作包括:使用統計和數學方法分析特定場景下的司法案例。同時,結合數學方法和司法規則使預測結果具有可解釋性。
針對的進展,肖(2018)提出了壹個大規模中文刑事判決預測數據集C-(C表示中文)。該數據集包含268萬份司法文件,是LJP的有效基準。C-LJP包含三個子任務:相關文章、適用費用和罰款的$ term。前兩個可以形式化為多標簽分類任務,最後壹個是回歸任務。英語LJP也有,但規模相對較小。
隨著NLP的發展,研究人員開始考慮在LJP使用NLP任務。這些作品可以分為兩個主要方向:1。使用更新的模型來提高性能:陳(2019)使用gate機制來提高監禁的$ TERM性能,潘(2019)提出使用多尺度註意力來處理多被告人案件。此外,其他研究人員探索如何使用法律知識和LJP的壹些屬性。羅(2017)利用事實與法律條文之間的註意力來幫助預測適用的指控。鐘(2018)使用拓撲圖來利用不同任務之間的關系。胡(2018)整合了可區分的法律屬性,以幫助預測低頻指控。
對C-LJP的壹系列實驗
實驗結果:
可以看出,許多模型在預測高頻收費和物品方面取得了良好的性能。但是,它在低頻標簽上的表現不佳,這表明micro-F1與macro-F1之間存在很大差距。
胡(2018)介紹了少鏡頭學習在中的應用。然而,他們的模型需要手動添加壹些額外的屬性信息,這使得應用於其他數據集非常費力和困難。此外,我們發現BERT的性能不夠好,因為在壹些模型參數較少的模型上沒有改進。主要原因是司法文本的長度普遍較長,但BERT文本的最長長度為512。據統計,最長的司法文本超過5w字,15%的文檔字段全部超過512。因此,LJP需要壹些文檔理解和推理技術。
雖然基於嵌入的方法取得了很好的效果,但我們需要在LJP中將基於嵌入和基於符號相結合。以TopJudge為例。該模型規範了LJP任務(基於符號的部分)的拓撲順序,並使用文本CNN對事實描述進行編碼。(我有點好奇在這個TopJudge中如何通過基於符號進行拓撲排序?對模型有多有用。)通過結合基於符號和基於嵌入的方法,TopJudge取得了較好的效果。通過比較TextCNN和TopJudge,我們可以發現增加判斷的順序可以提高性能。
為了更好的LJP性能。研究人員需要探索壹些挑戰:
在使用普通法系的國家(似乎被解釋為卷宗法律制度,通過類似的案例來判決案件),如美國、加拿大和印度,判決決定是通過類似的案例和代表性的案例做出的。因此,如何認定類似案件是英美法系中最需要解決的問題。
為了更好地預測普通法系的判決結果,相似案例匹配已經成為法律領域的壹個重要課題。供應鏈管理中相似性的定義也各不相同。SCM需要從不同的信息粒度(如事實級、事件級和元素級)對案例之間的關系進行建模。換句話說,SCM是語義匹配的壹種特殊形式,有助於提取法律信息檢索。
傳統的IR方法側重於使用統計方法來度量$ term級別的相似性,如TF-IDF。此外,其他研究人員也試圖通過使用元信息來捕捉語義相似性。許多機器學習方法也應用於信息檢索,如奇異值分解或因式分解。隨著深度學習的發展,多層感知器、CNN和RNN也被應用於信息檢索。
已經有壹些法律數據集:COLIEE、CaseLaw、CM。COLIEE和CaseLaw都用於從大型語料庫中提取最相關的文章。CM中的數據示例為計算相似性提供了三個司法文檔。這些數據集都提供了壹個基準。許多研究人員專註於構建壹個易於使用的法律搜索引擎(司法版的谷歌)。
以計算語義級相似度為目標,深度學習方法被用於LegalIR。tran(2019)提出了壹個基於CNN的模型,該模型結合了文檔級和句子級的池化,實現了SOTA在COLIEE中的效果。
為了更好地了解LegalIR目前的進展情況,我們使用CM(Xiao 2019)進行了實驗。CM包含8964個三元組,每個三元組包含三個司法文書(A、B、C)。CM的任務是區分哪壹個更接近A而不是B或c .我們實施了幾種不同類型的基線:
我們發現能夠捕獲語義信息的模型的性能超過了TF-IDF,但不足以應用於供應鏈管理。正如肖(2019)所言,主要原因是數據集中的元素定義了司法案例之間的相似性。司法人員會更加關註兩起案件中是否存在相關要素。僅僅考慮$ term層和語義層之間的相似性是不夠的。
供應鏈管理的進壹步研究需要在以下方向努力:
法律問答系統(LQA):司法領域的問答系統。
司法專業人員的壹項非常重要的任務是為不懂法的人提供可靠、優質的司法咨詢服務。
在LQA,問題的形式會發生很大變化:壹些問題強調對司法概念的解釋,而另壹些問題主要考慮對具體案件的分析。此外,專業人士和非專業人士在表達專業詞匯方面可能存在差異。這些問題給LQA帶來了許多挑戰。
LegalAI中有許多數據集。段(2019)提出了司法閱讀理解數據集,其格式類似於SQUAD 2.0,包括跨度提取、是非問題和不可回答問題。此外,COLIEE包含500個是/否問題。此外,律師考試是律師非常重要的考試,因此很難收集律師考試的數據,因為需要專業的司法知識和技能。
除了這些數據集,研究人員還在LQA上使用了許多方法。基於規則的系統在早期研究中取得了顯著的成果。為了獲得更好的性能,研究人員使用更多的信息來幫助推理,例如對概念的解釋或將相關文檔格式化為圖表。機器學習和深度學習方法,如CRF、SVM和CNN也在LQA使用。然而,大多數現有方法僅在小數據集上進行測試。
我們選擇JEC-QA作為實驗的數據集,因為它是從律師考試中收集的最大數據集,以確保他的難度。JEC問答包含286,465,438+0個多項選擇、多個問題答案和79,433篇相關文章來幫助回答問題。JEC問答將問題分為知識驅動問題(KD-questions)和案例分析問題,並提供了人的表現。我們已經實現了幾個有代表性的QA模型,包括BiDAF、BERT、協同匹配和HAF,這些實驗結果如表6所示。
通過比較發現,這些模型在回答這些司法問題時不能達到它們在回答開放領域問題時的良好效果。在LQA,模型和人類之間存在巨大的差距。
為了有壹個更好的LQA方法,有幾個困難需要克服:
除了本文之外,還有其他法律任務:法律文本摘要和從法律合同中提取信息。在任何情況下,我們都可以應用基於嵌入的方法來提高性能,並結合基於符號的方法來提高可解釋性。
三大挑戰:
未來的研究人員主要可以結合嵌入方法和符號方法來解決這三個挑戰。
對於某些任務,沒有數據集,或者數據集不夠大。我們可以嘗試建立大規模和高質量的數據集,或者使用少鏡頭/零鏡頭學習方法來解決這些問題。