壹、Python爬蟲網絡庫
Python爬蟲網絡庫主要包括:urllib、requests、grab、pycurl、urllib3、:雲執行R、Python和matlab代碼。
十二。電子郵件
●側翼:電子郵件地址和Mime解析庫;
● talon: mailgun庫用於提取消息的引用和簽名。
十三。網站和網址操作
●furl:壹個小的Python庫,簡化了url的操作;
●purl:簡單不可更改的url和幹凈的API進行調試和操作;
●網址。解析:用於打破統壹資源定位符(URL)組件之間的劃分,將組件組合成壹個URL字符串,並將“相對URL”轉換為絕對URL,稱為“基本URL”;
●tldextract:將TLD與URL的註冊域和子域精確分離,使用公共後綴列表;
●etaddr:用於顯示和操作網絡地址的Python庫。
十四。網頁內容抽取
●ewspaper:用Python進行新聞抽取、文章抽取和內容策展;
●HTML2text:將HTML轉換成Markdown格式文本;
● Python-Goose: HTML內容和文章提取器;
●lassie:人性化的網頁內容檢索工具;
●micawber:從網站中提取豐富內容的小型庫;
●sumy:自動匯總文本文件和HTML頁面的模塊;
●Haul:壹個可擴展的圖像爬行器;
●Python-可讀性:ARC 90可讀性工具的快速Python接口;
●scrapely:從HTML頁面提取結構化數據的庫;
●youtube-dl:從youtube下載視頻的小命令行程序;
●You-get:Python 3的YouTube、Youku/Niconico視頻下載器;
●WikiTeam:下載和保存維基的工具。
十五、WebSocket
●Crossbar:壹款開源應用消息路由器;
●AutobahnPython:提供WebSocket協議和WAMP協議的Python實現並開源;
●WebSocket-for-Python:Python 2、3和PyPy的web socket客戶端和服務器庫。
十六、DNS解析
●dnsyo:在全球1500多臺DNS服務器上查看自己的DNS;
●py cares:c-ares的界面。
十七、計算機視覺
●OpenCV:開源計算機視覺庫;
●SimpleCV:用於相機、圖像處理、特征提取和格式轉換的介紹和可讀接口;
●mahotas:壹種快速的計算機圖像處理算法,完全基於numpy的數組作為其數據類型。
十八。代理服務系統
●shadowsocks:可以幫助妳穿透防火墻的快速隧道代理;
● tproxy: tproxy是壹個簡單的TCP路由代理,基於Gevent,用Python配置。
十九。其他Python工具列表
●牛逼——python
●pycrumbs
●python-github-項目
●python_reference
●pythonidae