1和pyspider以去調度、隊列抓取、異常處理、監控等功能為框架,只需要提供給抓取腳本,保證靈活性。最後,通過web的編輯調試環境和web任務的監控,形成了這個框架。pyspider的設計基礎是:python腳本驅動的爬行環形模型爬蟲。
2.這些組件由消息隊列連接。除了調度器是單點的之外,提取器和處理器都可以部署在多個實例中。調度程序
負責總體調度控制。
3.任務由調度器調度,獲取器獲取網頁內容,處理器。
執行預先寫好的python腳本,輸出結果或者生成新的鏈提升任務(發送給調度器)形成閉環。
4.每個腳本可以靈活使用各種python庫解析頁面,使用框架API控制下壹個抓取動作,設置回調控制解析動作。
以上是python爬蟲pyspider的壹些用法介紹。不太懂的可以結合以上圖片。相信對了解pyspider的框架,學習更多技巧會有幫助。歡迎繼續關註!