比如什麽?上圖,壹看就知道肯定是新華網的新聞。
生成詞雲圖的主要步驟有哪些?這裏用Python來實現,主要分三步:
首先是安裝了“口吃”的漢字“結巴”。
對於英文文本,word_cloud可以直接生成文本來源的詞雲圖。但是對中文的支持沒有那麽強,所以需要先用jieba對中文文本進行切分,把文章變成文字,然後生成文字雲圖。例如:
Jieba.cut分詞:該方法接受三個輸入參數,句子需要壹個分詞字符串;Cut_all用於控制是否采用全模式;HMM用於控制是否使用HMM模型。
Jieba.cut_for_search分詞:該方法接受兩個參數,句子需要壹個分詞字符串;是否使用HMM模型。該方法適用於搜索引擎中倒排索引的分詞,粒度相對較細。
Jieba.analyse.TextRank使用TextRank算法從句子中提取關鍵詞。
然後安裝wordcloud單詞雲圖庫。
如果執行上述命令後顯示成功,那麽恭喜您,安裝成功。
我遇到了字雲造輪失敗的錯誤。所以安裝Xcode——先選擇,再安裝wordcloud(不用安裝Xcode)。
wordcloud庫將WordCloud視為壹個詞雲對象,而word cloud。WordCloud()表示與文本相對應的詞雲。它可以根據文字出現的頻率等參數繪制詞雲,並繪制出詞雲的形狀、大小和顏色。
1.首先,導入文本數據並執行簡單的文本處理。
2.分詞
3.設置遮罩
註意:
1.默認字體不支持中文。如果需要顯示中文,需要設置中文字體,否則會亂碼。
2.設置蒙版時,圖片的非白色部分會自動填充,圖片越清晰,運行速度越快。
其中,WordCloud是雲詞圖最重要的對象,其主要參數描述如下:
效果如下:
最後的總結就是把文章的內容全部分割成文字,把文字全部輸出,但是很多時候,我們還有進壹步的需求。例如:
1,只有前100個關鍵詞就夠了。
2、不需要花花綠綠的文字,應該和面膜圖片的顏色壹致。
100個關鍵詞,分詞時我們使用TextRank算法從句子中提取關鍵詞。
可以通過設置WordCloud的color_func屬性來設置蒙版顏色。
最終效果如下: