壹、Python爬蟲網絡庫
Python爬蟲網絡庫主要包括:urllib、requests、grab、pycurl、urllib3、httplib2、RoboBrowser、MechanicalSoup、mechanize、socket,對於Python、hyper、PySocks、treq和aiohttp是唯壹的。
二、Python網絡爬蟲框架
Python網絡爬蟲框架主要包括:grab、scrapy、pyspider、cola、portia、restkit和demiurge。
三、HTML/XML解析器?
LXML:壹個用C語言編寫的高效HTML/ XML處理庫。支持XPath。
●cssselect:解析DOM樹和CSS選擇器。
●pyquery:解析DOM樹和jQuery選擇器。
●BeautifulSoup:壹個低效的HTML/ XML處理庫,用Python實現。
●html5lib:根據WHATWG規範生成HTML/ XML文檔的DOM。現在所有的瀏覽器都使用這個規範。
●feedparser:解析RSS/ATOM提要。
●MarkupSafe:為XML/HTML/XHTML提供安全轉義字符串。
●xmltodict:壹個Python模塊,在處理XML時,可以讓您感覺自己在處理JSON。
●xhtml2pdf:將HTML/CSS轉換為pdf。
●解開:將XML文件轉換為Python對象很容易。
第四,文本處理
壹個用於解析和操作簡單文本的庫。
●difflib:(Python標準庫)有助於進行差異比較。
●Levenshtein:快速計算Levenshtein距離和Levenshtein。
●fuzzywuzzy:模糊字符串匹配。
●esmre:正則表達式加速器。
●ftfy:自動組織Unicode文本以減少碎片。
五、特定格式文件處理
解析和處理特定文本格式的庫。
●tablib:將數據導出為XLS、CSV、JSON、YAML和其他格式的模塊。
●textract:從各種文件中提取文本,如Word、PowerPoint、PDF等。
●messytables:解析混亂表格數據的工具。
●rows:壹個通用的數據接口,支持多種格式(目前支持CSV、HTML、XLS、TXT:將來會提供更多格式!)。