當前位置:成語大全網 - 漢語詞典 - Python爬蟲:微博評論分析

Python爬蟲:微博評論分析

最近王李離婚鬧得沸沸揚揚,相信大家都吃了不少瓜。基於李的第壹篇文章,下面貼出網友的評論,看看大家是如何看待此事的。

數據來自這個地址:/5977512966/L6W2SFDXB #評論。

抓取以下所有評論:

微博的網頁屬於Ajax渲染。當我們向下滑動時,會顯示評論,地址欄的URL保持不變。我們需要找到實際的請求URL。

1.右鍵單擊檢查並查找網絡。

2.確定每個頁面的內容URL

這是主頁。

URL滑動後顯示每個頁面的內容;

3.每個頁面的URL地址

從第二頁開始URL地址多的部分是max_id,這個參數的值就是上壹頁的返回內容:

4.介紹第壹頁的抓取

例如,我們可以獲得第壹個用戶的信息:

最後,我們可以看到第壹頁上顯示的數據:

參考上面的邏輯爬至微博下面的所有評論。

導入所需的庫:

查看我們抓取的數據的基本信息。我們導入了前5行數據:

基本信息:看數據的形態。總* * *為47,638行8場,沒有遺漏值。

將我們爬行的格林威治時間轉換成熟悉的標準化時間形式;

國內省份中,北京、廣東、上海、江蘇都是吃瓜大省!

果然:女人真的喜歡吃瓜嗎?遠遠超過男性

按贊數和回復數來看看微博下的這條熱評:

壹個網友評論87萬+贊!666

同樣的評論是這位網友,回復數也是第1號。

從點贊和回復的整體分布來看,這個評論真的很獨特!已經完全偏離了其他數據:

查看原始數據,我們發現這個註釋是:

看來之前很多爆料都被錘了!

從用戶年齡、點贊數、回復數來看,7、8、9、10歲的用戶更活躍;老的或者新的微博用戶評論比較少。

同時,喜歡的數量也集中在2000到5000之間的部分。

從用戶評論時間來看,李發第壹條,瞬間引爆評論(左邊密集部分);這條微博沈寂了4天,沒想到23號晚上又火了。

把粉絲的評論分成字來找他們的重點:

關註前50個單詞:

除了雙方,粉絲更關心的是自己的孩子。畢竟孩子是無辜的,但他們的瓜難道不是孩子造成的嗎?個人觀點。

總之:不管是王還是李,如果真的是或,請到十字架上。阿門!

Python爬蟲有壹個非常強大的框架Scrapy。聯系北大出版社發了兩本書:《Python網絡爬蟲框架Scrapy從入門到精通》。選擇兩個用心留言的朋友。

對Python爬蟲感興趣的朋友也可以直接購買。