當前位置:成語大全網 - 成語詞典 - 命名實體識別中的CRF層

命名實體識別中的CRF層

Bert+CRF 層

CRF層的輸入是:每個詞預測對應每個標簽的分數

CRF層的輸出是:每個可能的標註序列,並選擇得分最高的序列作為最終結果;

如果沒有CRF層的幫助,僅BiLSTM的話,模型只會選擇每個詞對應標簽最大的概率作為輸出,可能會出現I-Persion,I-location連接的錯誤情況,所以CRF的作用就是為模型提供壹個標簽約束關系:

這種約束為:

有了這些約束,無效的預測序列數量就將顯著減少;

在CRF層的損失函數中,我們有兩種類型的分數。這兩個分數是CRF層的 關鍵概念

第壹個是emission分數。這些emission分數來自BiLSTM層。例如上圖所示,標記為B-Person的w0的分數為1.5。

所以,我們用表示發射概率,i表示第i個詞的索引,y表示標簽的索引。例如: 表示選擇第0個詞,第0個標簽的發射概率;

我們用表示轉移概率。例如,表示標簽轉移的分數,解釋為B-person->I-persion的分數為0.9

為了使transition評分矩陣更健壯,我們將添加另外兩個標簽, START END 。START是指壹個句子的開頭,而不是第壹個單詞。END表示句子的結尾。

下圖為為壹個transition得分矩陣的例子,包括額外添加的START和END標簽。

我們可以發現transition矩陣已經學習了壹些有用的約束。

例如START標簽的轉移,不可能是I標簽開頭;

B-perision後面轉移到I-organization的概率很小;

妳可能想問壹個關於矩陣的問題。 在哪裏或如何得到transition矩陣

實際上,該矩陣是BiLSTM-CRF模型的壹個參數。

1)在訓練模型之前,可以隨機初始化矩陣中的所有transition分數。

那我們怎麽訓練這個轉移概率呢;

如果第10條路徑是真正的路徑,則在所有可能路徑中應占百分比最大;

參考文獻