爬行動物是如何學習的？

第壹步，當妳第壹次接觸Python網絡爬蟲時，妳必須先了解Python的基本常識，如變量、字符串、列表、字典、元組、操縱句、語法等。，並打下堅實的基礎，這樣做案例時就不會感到模糊。基本知識可以在廖雪峰的教程中找到，這是非常基礎和容易理解的，初學者可以很快接受。此外，妳還需要了解壹些網絡征稿的基本原理、網頁結構（如HTML、XML）等。

第二步，看視頻，也許找壹本專業的網絡爬蟲書（比如用Python寫網絡爬蟲），跟著別人的爬蟲編碼，跟著別人的代碼走，理解每壹行代碼，壹定要自己動手練習，這樣學得更快，理解得更多。很多時候，我們喜出望外，覺得我們有這個機會，然後我們不願意開始。事實上，當我們開始時，真相充滿了漏洞。最好每天堅持敲代碼，找點感覺。Python3提倡發展事物。由於Python2將在2020年停止保護，因此Python3肯定會成為未來的主流。IDE可以選擇pycharm、sublime或jupyter等。邊肖推薦pychram，因為它非常友好，有些類似於java中的eclipse，非常智能。在瀏覽器方面，學習使用Chrome或FireFox瀏覽器檢查元素，並學習使用它抓取包。此外，在此階段，您還需要了解爬蟲和庫的主流，如urllib、requests、re、bs4、xpath、json等。壹些常用的爬行動物結構，如scrapy，必須掌握。這個結構還是挺簡單的，初學者可能會覺得難以抗拒，但當捕獲的數據量非常大時，妳會發現它的妙處~ ~

第三步，既然有了爬蟲的想法，就該自己動手了。妳可以獨立設計爬蟲系統，找更多的網站練習。掌握抓取靜態和動態網頁的策略和方法，了解JS加載的網頁，了解selenium+PhantomJS模仿瀏覽器，知道如何處理json數據。如果網頁是POST solicitation，要知道傳入data參數，這類網頁壹般是動態加載的，所以要掌握包抓取方法。如果妳想提高爬蟲的能力，妳必須考慮是否使用多線程、多進程或分布式操作。