有哪些主題模型?
使用sqoop data MySQL導入HDFS,使用mahoutLDAcvb對輸入數據進行聚類,更新數據庫的數據流圖。mahout分析輸入數據格式的矩陣,要聚類的關鍵文本號值文本字向量,Vectorindex字字典號,valueTFIDF值計算相關參數的詳細說明(包括hadoop運行參數)項目的參數設置都與mahout-0.9目錄Examples/bin/cluster-Reuters . sh相同, 即$ scout cvb-I $ { work _ dir }/$ { rowid _ Matrix _ dir }/Matrix-o $ { work _ dir }/$ { LDA _ dir }-k 2 0-ow-x 2 0-dict $ { work _ dir }/$ { dictionary _ files }-dt $ { work _ dir }/$ { LDA _ topics _ dir }-mt $ { $ { LDA _ model _ dir }輸入-輸入數據hdfs路徑,/home/Hadoop-user/scout _ workspace/scout/dataset/Reuters-out-Matrix /home/Hadoop-user/scout _ workspace/scout/dataset/Reuters-LDA-topics mt-Model path,/home/Hadoop-user/scout _ workspace/scout/dataset/Reuters-LDA-debug k-要學習的主題數,設置20x-模型叠代次數,需要叠代的模型較少。默認值是20種子-隨機種子。初始readModel,默認值system . nano time()%-0000 dict-dictionary路徑,/home/Hadoop-user/scout _ workspace/scout/dataset/Reuters-out-seqdir-sparse-LDA/dictionary . file-* a-對文檔/主題分布進行平滑,文檔/主題fabric平滑系數,默認壹個。主題/$ TERM分布的四個e平滑,主題/$ TERM織物平滑系數,缺省值。0E-四關於ae,根據描述,ae適當取為k/50(k話題數),中國頁保留了對mahout ldatopics命令的介紹,mahout 0。0,0.9沒有這個命令,應該是比較老的了。根據cluster-reuters.sh的設置,采用默認值mipd參數不重要。每個文檔程序使用RandomSeed初始readModel來執行MIPD叠代計算。最終模型被更新。選擇缺省值-0 LDA計算程序來分析流量。1.分析參數和配置設置。2.閱讀模型(第壹次運行未完成)。hfds表面已經用模型程序讀取了模型,並且該模型已經被用作初始readModel以繼續計算叠代,這類似於斷電重啟機制。3.運行計算叠代(Mapper process)LDA模型過程的復雜階段可能會讓我明白我會盡力解釋。首先分析映射器,即CachingCVB0Mapper。顧名思義,它可以緩存Mapper來表達它的readModel。如果在所選的表面目錄中存儲了任何模型,它將使用RandomSeed初始化readModel,否則它將讀取近模型程序模型,用ModelTrainer對readModelwriteModel進行定界並調度和管理。r整個地圖中顯示的飛機整體框架(清晰地圖見附件),mahout程序使用CVB0算法計算LDA模型。Map過程引出向量docTopic矩陣docTopicModel,叠代求解計算每個docTopicModel,doc topic model矩陣在更新寫入階段進行向量加法運算,最後在完成整個map過程後清理topicind。ex as key matrix docTopicModel as value write reduce這個過程涉及到CVB0的計算和分析圖(清晰示意圖見附件)。4.通過LDA模型導出話題概率分布,總結計算本質面的bayes公式,將EM計算與E過程相結合。首先假設均勻分布並歸壹化話題概率分布向量docTopics,用此值通過貝葉斯公式計算出詞-話題概率分布矩陣docTopicModel(見CVB0分析圖步驟)。m-程序CVB0的計算和分析按照docTopicModel圖2,3,4,5的步驟重新計算新的docTopics。反復重復E-M過程。n收斂docTopicsdocTopicModel。它的docTopicModel用於更新lda模型。我的聚類需要主題概率分布向量計算。有幾個問題沒有解決。1.mahout根據表面計算docTopicModel double ter。mTopicLikelihood =(topictermrow . get(termIndex)+eta)*(topicWeight+alpha)/(topic sum+eta * numTerms);問題:這個公式給貝葉斯公式增加了多少個平滑系數?平滑系數etaalpha代表哪本書或論文?兩個系數怎麽選?2.CVB0計算分析圖第二步是國產化的理論基礎。3.更新writeModel過程是以topicTermCounts計算的,也就是說每個map都需要P (topic | $ TERM)我沒有完全了解項目運行環境Hadoop-I . 2.1 sqoop-I . 4.4 mahout-0.9環境的安裝部署請參考相關文章,補充細節。三個軟件部署在本地/Home/Hadoop-User/MAHOUT _ Workspace/Directory,寫scout項目部署/Home/Hadoop-User/Scout _ Workspace/Directory項目代碼項目代碼已加載有Github的興趣。重點放在bin目錄腳本文件和驅動、導出、分析器等幾個java文件包。整個項目架構分析項目的初始數據保存在MySQL中。計算分析需要map/reduce程序和hdfs文件系統的參與,結果更新到MySQL和全流程圖office。