Python，什麽爬蟲庫好用？

Python下的爬蟲庫壹般分為三類。

抓取類

Urllib(Python3)是Python自帶的庫，可以模擬瀏覽器的請求，得到解析的響應。它提供了豐富的請求手段，支持Cookies、Headers等各種參數，很多爬蟲庫基本都建立在它的基礎上。建議了解壹下，因為有些罕見的問題需要用底層方式解決。

基於urllib的請求更加方便易用。強烈推薦掌握。

分析類

回復:正規表達式官方庫不僅用於學習爬蟲，也是其他字符串處理或自然語言處理中不可回避的庫，強烈建議掌握。

BeautifulSoup:好用，好用，推薦掌握。通過選擇器選擇頁面元素並獲得相應的內容。

Lxml:使用

lxml.etree

在轉換完字符串後，我們可以使用XPath表達式來解析網頁，這是最終的建議。XPath非常強大地支持網頁解析，並且易於使用。它最初是為XML元素選擇而設計的，但它也支持HTML。Pyquery:另壹個強大的解析庫，有興趣可以學習壹下。

合成的

Selenium:所見即所得爬蟲，集抓取和解析功能於壹身，壹站式解決。很多動態網頁不容易直接通過請求和scrapy抓取。比如有些網址後面是加密的隨機數，這些算法不容易破解。在這種情況下，只能通過直接訪問URL和模擬登錄來請求頁面的源代碼，直接從網頁元素中解析內容。在這種情況下，硒是最好的選擇。但是Selenium最初是為測試而設計的。強烈推薦。

Scrapy:另壹個爬蟲神器，適合抓取大量頁面，甚至為分布式爬蟲提供了很好的支持。強烈推薦。

這些是我個人經常使用的庫，但還有許多其他工具值得學習。比如Splash還支持動態網頁的抓取；Appium可以幫助我們抓取App的內容；查爾斯可以幫我們抓到袋子，無論是移動端還是PC網頁端，都有很好的支撐；Pyspider也是壹個全面的框架；MySQL(pymysql)，MongoDB(pymongo)，壹旦抓到數據就要存儲，數據庫是繞不過去的。

掌握以上，基本上大部分爬蟲任務對妳來說都不難！