當前位置:成語大全網 - 新華字典 - 學Python爬蟲壹定要學scrapy模塊嗎

學Python爬蟲壹定要學scrapy模塊嗎

不壹定。

Scrapy是個框架,很多輪子不用自己這寫了。

不過Scrapy比較“重”,如果是小型、單壹的爬蟲任務,我覺得自己重頭寫反而比較輕便快速,夠用就好。

題主是不是剛開始學爬蟲,如果是,建議先理解爬蟲的幾個模塊,理解了原理再學Scrapy才會有效率。我理解的模塊有如下幾個:

訪問頁面,用requests,知道get和post方法來獲得網頁的html代碼。如果頁面用到ajax之類動態加載的,可以通過分析原碼爬人家的json(學習下python裏json的包),或者了解壹下selenium(不到萬不得以不太推薦)的用法。

提取html裏的內容,就是我們要爬的內容啦,這個方法有很多,比如正則式,比如xpath,比如BeautifulSoup等等,我主要是用xpath,復雜壹點的情況會配合正則用。

保存,程序裏,是存在字典還是列表還是pandas的DateFrame,就看妳個人需要啦。程序外,可以直接存成txt、excel或者放進數據庫,python這方面的現在的庫也很多,教程也很多。

Scrapy在以上提到的基本模塊基礎上還加入了其他功能,如果哪天樓主覺得以上的模塊不夠用可以試著先自己造個小輪子,比如通過代理來換ip等等。等理解了這些模塊時再學scrapy也不遲,而且事半功倍。至於安裝問題,pip install scrapy不就能解決嗎。。