數據來自這個地址:/5977512966/L6W2SFDXB #評論。
抓取以下所有評論:
微博的網頁屬於Ajax渲染。當我們向下滑動時,會顯示評論,地址欄的URL保持不變。我們需要找到實際的請求URL。
1.右鍵單擊檢查並查找網絡。
2.確定每個頁面的內容URL
這是主頁。
URL滑動後顯示每個頁面的內容;
3.每個頁面的URL地址
從第二頁開始URL地址多的部分是max_id,這個參數的值就是上壹頁的返回內容:
4.介紹第壹頁的抓取
例如,我們可以獲得第壹個用戶的信息:
最後,我們可以看到第壹頁上顯示的數據:
參考上面的邏輯爬至微博下面的所有評論。
導入所需的庫:
查看我們抓取的數據的基本信息。我們導入了前5行數據:
基本信息:看數據的形態。總* * *為47,638行8場,沒有遺漏值。
將我們爬行的格林威治時間轉換成熟悉的標準化時間形式;
國內省份中,北京、廣東、上海、江蘇都是吃瓜大省!
果然:女人真的喜歡吃瓜嗎?遠遠超過男性
按贊數和回復數來看看微博下的這條熱評:
壹個網友評論87萬+贊!666
同樣的評論是這位網友,回復數也是第1號。
從點贊和回復的整體分布來看,這個評論真的很獨特!已經完全偏離了其他數據:
查看原始數據,我們發現這個註釋是:
看來之前很多爆料都被錘了!
從用戶年齡、點贊數、回復數來看,7、8、9、10歲的用戶更活躍;老的或者新的微博用戶評論比較少。
同時,喜歡的數量也集中在2000到5000之間的部分。
從用戶評論時間來看,李發第壹條,瞬間引爆評論(左邊密集部分);這條微博沈寂了4天,沒想到23號晚上又火了。
把粉絲的評論分成字來找他們的重點:
關註前50個單詞:
除了雙方,粉絲更關心的是自己的孩子。畢竟孩子是無辜的,但他們的瓜難道不是孩子造成的嗎?個人觀點。
總之:不管是王還是李,如果真的是或,請到十字架上。阿門!
Python爬蟲有壹個非常強大的框架Scrapy。聯系北大出版社發了兩本書:《Python網絡爬蟲框架Scrapy從入門到精通》。選擇兩個用心留言的朋友。
對Python爬蟲感興趣的朋友也可以直接購買。