當前位置:成語大全網 - 英語詞典 - php自動提取文章關鍵字?

php自動提取文章關鍵字?

現在很多web系統都用到了不少的自然語言處理技術來提高客戶體驗。

主要技術:

1.文章關鍵字提取.

2.相關文章(產品)推薦.

最近有不少網友問道,這裏以php為例子講解下php的"關鍵字提取"的實現,同時這個也是實現"相關文章推薦"的前提.

基本分以下幾個步驟:

壹.對文章進行分詞:

php的中文分詞程序還是有不少的,從前輩的scws,到用純php實現的phpAnalysis,phpcws(phpcws)以及本人開發的robbe擴展。

這裏的講解是使用"robbe分詞擴展"來進行分詞,robbe興許不是最好的,但壹定是最快的。

選擇的分詞器需要支持停止詞過濾。

二.統計詞條詞頻並且排序:

對壹篇文章分詞後,統計每個詞條出現的次數。然後按照詞頻降序排序下,妳想要的結果在前面幾個詞中。

前提是去除了出現詞頻很高的停止詞,要不然得到的都是壹些無用的停止詞。?

現在,很多web系統都用到了不少的自然語言處理技術來提高客戶體驗.主要技術:1.文章關鍵字提取.2.相關文章(產品)推薦.最近有不少網友問到,這裏以php為例子講解下php的"關鍵字提取"的實現,同時這個也是實現"相關文章推薦"的前提。

基本分以下幾個步驟:

壹.對文章進行分詞:php的中文分詞程序還是有不少的,從前輩的scws,到用純php實現的phpAnalysis,phpcws(phpcws)以及本人開發的robbe擴展。這裏的講解是使用"robbe分詞擴展"來進行分詞,robbe興許不是最好的,但壹定是最快的。選擇的分詞器需要支持停止詞過濾。?

二.統計詞條詞頻並且排序:對壹篇文章分詞後,統計每個詞條出現的次數,然後按照詞頻降序排序下,妳想要的結果在前面幾個詞中。霍營IT培訓建議前提是去除了出現詞頻很高的停止詞,要不然得到的都是壹些無用的停止詞。