當前位置:成語大全網 - 漢語詞典 - Python畫出漂亮的雲字。

Python畫出漂亮的雲字。

詞雲圖是數據分析中常用的可視化方法。詞雲圖也叫文本雲,是對文本中出現頻率較高的關鍵詞的可視化展示。單詞出現越多,在單詞雲圖中顯示越顯眼。文字雲圖過濾掉了大量低頻低質量的文字信息,只要掃壹眼文字就能體會到文章的主旨。

比如什麽?上圖,壹看就知道肯定是新華網的新聞。

生成詞雲圖的主要步驟有哪些?這裏用Python來實現,主要分三步:

首先是安裝了“口吃”的漢字“結巴”。

對於英文文本,word_cloud可以直接生成文本來源的詞雲圖。但是對中文的支持沒有那麽強,所以需要先用jieba對中文文本進行切分,把文章變成文字,然後生成文字雲圖。例如:

Jieba.cut分詞:該方法接受三個輸入參數,句子需要壹個分詞字符串;Cut_all用於控制是否采用全模式;HMM用於控制是否使用HMM模型。

Jieba.cut_for_search分詞:該方法接受兩個參數,句子需要壹個分詞字符串;是否使用HMM模型。該方法適用於搜索引擎中倒排索引的分詞,粒度相對較細。

Jieba.analyse.TextRank使用TextRank算法從句子中提取關鍵詞。

然後安裝wordcloud單詞雲圖庫。

如果執行上述命令後顯示成功,那麽恭喜您,安裝成功。

我遇到了字雲造輪失敗的錯誤。所以安裝Xcode——先選擇,再安裝wordcloud(不用安裝Xcode)。

wordcloud庫將WordCloud視為壹個詞雲對象,而word cloud。WordCloud()表示與文本相對應的詞雲。它可以根據文字出現的頻率等參數繪制詞雲,並繪制出詞雲的形狀、大小和顏色。

1.首先,導入文本數據並執行簡單的文本處理。

2.分詞

3.設置遮罩

註意:

1.默認字體不支持中文。如果需要顯示中文,需要設置中文字體,否則會亂碼。

2.設置蒙版時,圖片的非白色部分會自動填充,圖片越清晰,運行速度越快。

其中,WordCloud是雲詞圖最重要的對象,其主要參數描述如下:

效果如下:

最後的總結就是把文章的內容全部分割成文字,把文字全部輸出,但是很多時候,我們還有進壹步的需求。例如:

1,只有前100個關鍵詞就夠了。

2、不需要花花綠綠的文字,應該和面膜圖片的顏色壹致。

100個關鍵詞,分詞時我們使用TextRank算法從句子中提取關鍵詞。

可以通過設置WordCloud的color_func屬性來設置蒙版顏色。

最終效果如下: