當前位置:成語大全網 - 新華字典 - 文章自動生成標簽的算法分析與實現

文章自動生成標簽的算法分析與實現

唯有回望,才能發現,我們究竟已經走出多遠。

唯有前瞻,才能相信,我們沿著這條航線,壹定能抵達夢想的彼岸。

假設有壹篇文章,標題和內容如下:

如果要為此文章自動生成標簽,該如何做呢?

1、創建壹個帶指針的字符串對象

2、生成標簽字典

2.1 定義標簽節點 TagNode

2.2 生成字典 TagNode[]

2.3 在文本中匹配標簽

指針從文本的開頭,向後遍歷,計算當前的位置的headTwoCharMix,即此處的 “Bo” 2個字符,然後計算Hash值定位到字典的位置,字典的位置只會出現如下兩種情況:

1、權重問題

標題和內容的權重應該是不同的,所以在匹配出標簽的時候,需要給匹配到的標簽添加分數,依據得分高低對匹配標簽排序

2、英文字符大小寫的問題

例如:標簽庫中有壹個標簽“Docker”,結果文中出現的是 “docker”,這兩個字符串是不相等的,從邏輯上來講,標簽是匹配到的,所以要調整算法,將大寫字母全部轉換為小寫字母來匹配

帶指針的字符串 StringPointer.java

標簽節點 TagNode.java

標簽分數統計類 TagBean.java

標簽匹配工具類 TagTools.java