1.個人簡歷
2.北京生物工程學院
3.IOB等等
我們以命名實體識別為例來看看區別,主要集中在標註方法對最終模型效果的影響。
個人簡歷
b?代表“開始”(表示命名實體的開始,即NE)
我?代表“內部”(表示單詞在NE內部)
o?代表“外部”(表示該單詞只是NE外部的常規單詞)
2.北京生物工程學院
b?代表“開始”(表示NE的開始)
我?代表“內部”(表示單詞在NE內部)
o?代表“外部”(表示該單詞只是NE外部的常規單詞)
e?代表“end”(表示單詞是NE的結尾)
s?代表“單個”(表示單個單詞是壹個NE)
3.?IOB(即IOB-1)
IOB和BIO字母具有相同的含義,但不同之處在於,在IOB中,標簽B僅用於區分同壹類型的兩個連續命名實體的邊界,而不是用於命名實體的起始位置。這裏有壹個例子:
詞序:(詞)(詞)(詞)(詞)(詞)(詞)(詞)(詞)
IOB符號:(I-LOC)(I-LOC)(B-LOC)(I-LOC)(O)(O)
生物標簽:(b-loc)(I-loc)(b-loc)(I-loc)(o)(o)
IOB方案類似於BIO方案,然而,在這裏,如果前壹個令牌屬於同壹類別但不是段的壹部分,則標簽B-僅用於開始段。
由於IOB的整體效果不好,因此出現了IOB-2,並同意所有命名實體都以B標簽開頭。這樣,IOB-2相當於BIO的標記方法。
由於IOB缺少B-tag作為實體標註的頭部表示,因此會丟失壹些標註信息,從而導致在許多任務中結果不佳。
BIO解決了IOB的問題,所以整體效果比IOB好。
BIOES提供了關於單個單詞的End和S標簽的額外信息,這提供了更多的信息,可能具有更好的效果,但它需要預測更多的標簽(更多的E和S),效果也可能受到影響。
命名實體識別的作用:
命名實體識別過程包括:
1.實體邊界識別
2.確定實體類別