當前位置:成語大全網 - 漢語詞典 - Bert加bilstm和crf作為ner的意義

Bert加bilstm和crf作為ner的意義

伯特,為什麽可以加crf還是不加?加crf有什麽好處?

添加crf:相當於顯式捕獲標簽之間的依賴關系。

但是為什麽很多人說bert和bert+crf效果差不多?我認為bert所能表達的語義空間足夠豐富,可以捕捉到標簽之間的依賴關系。有人說bert+crf還是比較好的。我覺得可能是數據集的相關特征之間的關系,或者是參數的調整等等。

1.BERT+BiLSTM+CRF & gt;BiLSTM+CRF

單詞嵌入多壹層BERT初始化肯定比隨機初始化好,這個我就不多解釋了。

2.BERT+BiLSTM+CRF & gt;BERT+通用報告格式

首先,BERT使用transformer,這是基於自我註意的,即在計算過程中弱化了位置信息(僅使用位置嵌入來告訴模型輸入token的位置信息),而位置信息在序列標註任務中是非常必要的。甚至方向信息都是必須的(記得去年復旦大學發表的壹篇NER論文TENER中有提到,有興趣可以直接在知乎搜索TENER),所以我們需要用LSTM獲取對觀測序列的依賴,然後用CRF獲取狀態序列的關系,得到答案。如果直接使用CRF,模型對觀測序列的學習能力會下降,導致效果不佳。(純屬個人觀點)