哪裏有好用的網頁自動抓取工具

良心推薦前嗅大數據的ForeSpider數據采集系統。

在通用性爬蟲中，ForeSpider爬蟲的采集速度和采集能力是最強的，支持登錄、Cookie、Post、https、驗證碼、JS、Ajax、關鍵詞搜索等等技術的采集，采集效率在普通臺式機上，可以達到500萬條數據/每天。這樣的采集速度是壹般的通用性爬蟲的8到10倍。

對於壹些反爬蟲的網站，除了驗證碼本身，壹般反爬蟲措施也比較多，比如國家自然基金會網站、全國企業信息公示系統等，最高難度的網站完全沒有問題。可以使用ForeSpider內部自帶的爬蟲腳本語言系統，簡單幾行代碼就可以采集到高難度的網站。對於大量的網站采集需求而言，ForeSpider爬蟲可以在規則模板固定之後，開啟定時采集。支持數據多次清洗。

對於關鍵詞搜索的需求而言，ForeSpider爬蟲支持關鍵詞搜索和數據挖掘功能，自帶關鍵詞庫和數據挖掘字典，可以有效采集關鍵詞相關的內容。

可以去下載免費版，免費版不限制采集功能。有詳細的操作手冊可以學習。