當前位置:成語大全網 - 漢語詞典 - python爬蟲登錄知乎後如何抓取數據?

python爬蟲登錄知乎後如何抓取數據?

模擬登錄

很多網站,如知乎、微博、豆瓣等,都需要登錄才能瀏覽部分內容。所以要想爬這類網站,首先要模擬登錄。更簡單的方法是使用這個網站的cookie。Cookie相當於壹個密碼箱,裏面存儲著這個網站用戶的基本信息。壹次登錄後,網站會記住妳的信息,放在cookie裏,方便下次自動登錄。所以爬取這類網站的策略是:先手動登錄獲取cookie,再在再次登錄時調用上次登錄獲取的cookie實現自動登錄。

動態爬行

在知乎抓取問題時,需要將鼠標滾輪滑動到底部才能顯示新的答案。靜態爬取法做不到這壹點,可以引入selenium庫來解決這個問題。硒庫模擬人瀏覽網站和操作,簡單易懂。