當前位置:成語大全網 - 成語詞典 - 百度分詞的分類

百度分詞的分類

 從形式上看,詞是穩定的字的組合,因此在上下文中,相鄰的字同時出現的次數越多,就越有可能構成壹個詞。因此字與字相鄰***現的頻率或概率能夠較好的反映成詞的可信度。可以對語料中相鄰***現的各個字的組合的頻度進行統計,計算它們的互現信息。定義兩個字的互現信息,計算兩個漢字X、Y的相鄰***現概率。互現信息體現了漢字之間結合關系的緊密程度。當緊密程度高於某壹個閾值時,便可認為此字組可能構成了壹個詞。這種方法只需對語料中的字組頻度進行統計,不需要切分詞典,因而又叫做無詞典分詞法或統計取詞方法。但這種方法也有壹定的局限性,會經常抽出壹些***現頻度高、但並不是詞的常用字組,並且對常用詞的識別精度差,時空開銷大。