當前位置:成語大全網 - 書法字典 - python爬蟲用什麽庫?

python爬蟲用什麽庫?

Python crawler,全稱Python web crawler,是按照壹定的規則自動抓取萬維網上信息的程序或腳本。主要用於抓取證券交易數據、天氣數據、網站用戶數據、圖片數據等。為了支持網絡爬蟲的正常功能,Python內置了大量的庫,主要有幾種類型。下面的文章就給大家介紹壹下。

壹、Python爬蟲網絡庫

Python爬蟲網絡庫主要包括:urllib、requests、grab、pycurl、urllib3、:雲執行R、Python和matlab代碼。

十二。電子郵件

●側翼:電子郵件地址和Mime解析庫;

● talon: mailgun庫用於提取消息的引用和簽名。

十三。網站和網址操作

●furl:壹個小的Python庫,簡化了url的操作;

●purl:簡單不可更改的url和幹凈的API進行調試和操作;

●網址。解析:用於打破統壹資源定位符(URL)組件之間的劃分,將組件組合成壹個URL字符串,並將“相對URL”轉換為絕對URL,稱為“基本URL”;

●tldextract:將TLD與URL的註冊域和子域精確分離,使用公共後綴列表;

●etaddr:用於顯示和操作網絡地址的Python庫。

十四。網頁內容抽取

●ewspaper:用Python進行新聞抽取、文章抽取和內容策展;

●HTML2text:將HTML轉換成Markdown格式文本;

● Python-Goose: HTML內容和文章提取器;

●lassie:人性化的網頁內容檢索工具;

●micawber:從網站中提取豐富內容的小型庫;

●sumy:自動匯總文本文件和HTML頁面的模塊;

●Haul:壹個可擴展的圖像爬行器;

●Python-可讀性:ARC 90可讀性工具的快速Python接口;

●scrapely:從HTML頁面提取結構化數據的庫;

●youtube-dl:從youtube下載視頻的小命令行程序;

●You-get:Python 3的YouTube、Youku/Niconico視頻下載器;

●WikiTeam:下載和保存維基的工具。

十五、WebSocket

●Crossbar:壹款開源應用消息路由器;

●AutobahnPython:提供WebSocket協議和WAMP協議的Python實現並開源;

●WebSocket-for-Python:Python 2、3和PyPy的web socket客戶端和服務器庫。

十六、DNS解析

●dnsyo:在全球1500多臺DNS服務器上查看自己的DNS;

●py cares:c-ares的界面。

十七、計算機視覺

●OpenCV:開源計算機視覺庫;

●SimpleCV:用於相機、圖像處理、特征提取和格式轉換的介紹和可讀接口;

●mahotas:壹種快速的計算機圖像處理算法,完全基於numpy的數組作為其數據類型。

十八。代理服務系統

●shadowsocks:可以幫助妳穿透防火墻的快速隧道代理;

● tproxy: tproxy是壹個簡單的TCP路由代理,基於Gevent,用Python配置。

十九。其他Python工具列表

●牛逼——python

●pycrumbs

●python-github-項目

●python_reference

●pythonidae