Python爬蟲庫推薦
常規:
1.urllib-網絡庫(stdlib)。
2 .請求-網絡圖書館。
3.grab-網絡庫(基於py curl)。
4.py curl-網絡庫(binding libcurl)。
5.urllib 3-Python HTTP庫,安全連接池,支持文件post。
和高可用性。
6.-在雲端執行r、Python和matlab代碼。
網頁內容抽取
提取網頁內容庫。
HTML頁面的文本和元數據
用Python實現報紙新聞抽取、文章抽取和內容策略
展覽。
將Html轉換成Markdown格式的文本。
Python-Goose-HTML內容/文章提取器。
lassie——壹個人性化的網絡內容檢索工具
Web套接字
壹個Web套接字庫。
crossbar——壹個開源應用程序消息路由器(由Python實現)
高速公路上的網絡套接字和WAMP)。
提供了Autobahn python-Web Socket協議和WAMP。
協議的Python實現和開源。
WebSocket-for-Python-Python 2和3以及PyPy的
Web套接字客戶端和服務器庫。