現在很多web系統都用到了不少的自然語言處理技術來提高客戶體驗。
主要技術:
1.文章關鍵字提取.
2.相關文章(產品)推薦.
最近有不少網友問道,這裏以php為例子講解下php的"關鍵字提取"的實現,同時這個也是實現"相關文章推薦"的前提.
基本分以下幾個步驟:
壹.對文章進行分詞:
php的中文分詞程序還是有不少的,從前輩的scws,到用純php實現的phpAnalysis,phpcws(phpcws)以及本人開發的robbe擴展。
這裏的講解是使用"robbe分詞擴展"來進行分詞,robbe興許不是最好的,但壹定是最快的。
選擇的分詞器需要支持停止詞過濾。
二.統計詞條詞頻並且排序:
對壹篇文章分詞後,統計每個詞條出現的次數。然後按照詞頻降序排序下,妳想要的結果在前面幾個詞中。
前提是去除了出現詞頻很高的停止詞,要不然得到的都是壹些無用的停止詞。?
現在,很多web系統都用到了不少的自然語言處理技術來提高客戶體驗.主要技術:1.文章關鍵字提取.2.相關文章(產品)推薦.最近有不少網友問到,這裏以php為例子講解下php的"關鍵字提取"的實現,同時這個也是實現"相關文章推薦"的前提。
基本分以下幾個步驟:
壹.對文章進行分詞:php的中文分詞程序還是有不少的,從前輩的scws,到用純php實現的phpAnalysis,phpcws(phpcws)以及本人開發的robbe擴展。這裏的講解是使用"robbe分詞擴展"來進行分詞,robbe興許不是最好的,但壹定是最快的。選擇的分詞器需要支持停止詞過濾。?二.統計詞條詞頻並且排序:對壹篇文章分詞後,統計每個詞條出現的次數,然後按照詞頻降序排序下,妳想要的結果在前面幾個詞中。霍營IT培訓建議前提是去除了出現詞頻很高的停止詞,要不然得到的都是壹些無用的停止詞。