Python之所以和爬蟲聯系在壹起,是因為它提供了urllib、re、json、pyquery等模塊。同時還有很多成型框架,比如Scrapy框架,PySpider爬蟲系統,非常簡單方便。
Python是壹種完全面向對象的語言。函數、模塊、數字和字符串都是對象。並且完全支持繼承、重載、派生和多重繼承,有利於增強源代碼的可重用性。Python支持重載運算符和動態類型。與傳統的函數式編程語言Lisp相比,Python只對函數式設計提供了有限的支持。有兩個標準庫(functools、itertools)提供了Haskell和標準ML中經過驗證的函數式編程工具。
擴展數據:
網絡爬蟲的行為通常是四種策略結合的結果。
1,選擇策略,決定下載的頁面;
2.重訪策略決定何時檢查頁面的更新和變化;
3.平衡禮貌策略,指出如何避免網站超載;
4.並行策略,指出如何實現壹起分布式抓取的效果。