當前位置:成語大全網 - 書法字典 - Python用什麽庫寫爬蟲?

Python用什麽庫寫爬蟲?

Python爬蟲,全稱Python web crawler,是按照壹定規則自動抓取萬維網上信息的程序或腳本。主要用於抓取證券交易數據、天氣數據、網站用戶數據和圖片數據等。為了支持網絡爬蟲的正常功能,Python內置了大量的庫,主要有幾種類型。下面的文章將向您介紹它。

壹、Python爬蟲網絡庫

Python爬蟲網絡庫主要包括:urllib、requests、grab、pycurl、urllib3、httplib2、RoboBrowser、MechanicalSoup、mechanize、socket,對於Python、hyper、PySocks、treq和aiohttp是唯壹的。

二、Python網絡爬蟲框架

Python網絡爬蟲框架主要包括:grab、scrapy、pyspider、cola、portia、restkit和demiurge。

三、HTML/XML解析器?

LXML:壹個用C語言編寫的高效HTML/ XML處理庫。支持XPath。

●cssselect:解析DOM樹和CSS選擇器。

●pyquery:解析DOM樹和jQuery選擇器。

●BeautifulSoup:壹個低效的HTML/ XML處理庫,用Python實現。

●html5lib:根據WHATWG規範生成HTML/ XML文檔的DOM。現在所有的瀏覽器都使用這個規範。

●feedparser:解析RSS/ATOM提要。

●MarkupSafe:為XML/HTML/XHTML提供安全轉義字符串。

●xmltodict:壹個Python模塊,在處理XML時,可以讓您感覺自己在處理JSON。

●xhtml2pdf:將HTML/CSS轉換為pdf。

●解開:將XML文件轉換為Python對象很容易。

第四,文本處理

壹個用於解析和操作簡單文本的庫。

●difflib:(Python標準庫)有助於進行差異比較。

●Levenshtein:快速計算Levenshtein距離和Levenshtein。

●fuzzywuzzy:模糊字符串匹配。

●esmre:正則表達式加速器。

●ftfy:自動組織Unicode文本以減少碎片。

五、特定格式文件處理

解析和處理特定文本格式的庫。

●tablib:將數據導出為XLS、CSV、JSON、YAML和其他格式的模塊。

●textract:從各種文件中提取文本,如Word、PowerPoint、PDF等。

●messytables:解析混亂表格數據的工具。

●rows:壹個通用的數據接口,支持多種格式(目前支持CSV、HTML、XLS、TXT:將來會提供更多格式!)。