在通用性爬蟲中,ForeSpider爬蟲的采集速度和采集能力是最強的,支持登錄、Cookie、Post、https、驗證碼、JS、Ajax、關鍵詞搜索等等技術的采集,采集效率在普通臺式機上,可以達到500萬條數據/每天。這樣的采集速度是壹般的通用性爬蟲的8到10倍。
對於壹些反爬蟲的網站,除了驗證碼本身,壹般反爬蟲措施也比較多,比如國家自然基金會網站、全國企業信息公示系統等,最高難度的網站完全沒有問題。可以使用ForeSpider內部自帶的爬蟲腳本語言系統,簡單幾行代碼就可以采集到高難度的網站。對於大量的網站采集需求而言,ForeSpider爬蟲可以在規則模板固定之後,開啟定時采集。支持數據多次清洗。
對於關鍵詞搜索的需求而言,ForeSpider爬蟲支持關鍵詞搜索和數據挖掘功能,自帶關鍵詞庫和數據挖掘字典,可以有效采集關鍵詞相關的內容。
可以去下載免費版,免費版不限制采集功能。有詳細的操作手冊可以學習。