Scrapy是個框架,很多輪子不用自己這寫了。
不過Scrapy比較“重”,如果是小型、單壹的爬蟲任務,我覺得自己重頭寫反而比較輕便快速,夠用就好。
題主是不是剛開始學爬蟲,如果是,建議先理解爬蟲的幾個模塊,理解了原理再學Scrapy才會有效率。我理解的模塊有如下幾個:
訪問頁面,用requests,知道get和post方法來獲得網頁的html代碼。如果頁面用到ajax之類動態加載的,可以通過分析原碼爬人家的json(學習下python裏json的包),或者了解壹下selenium(不到萬不得以不太推薦)的用法。
提取html裏的內容,就是我們要爬的內容啦,這個方法有很多,比如正則式,比如xpath,比如BeautifulSoup等等,我主要是用xpath,復雜壹點的情況會配合正則用。
保存,程序裏,是存在字典還是列表還是pandas的DateFrame,就看妳個人需要啦。程序外,可以直接存成txt、excel或者放進數據庫,python這方面的現在的庫也很多,教程也很多。
Scrapy在以上提到的基本模塊基礎上還加入了其他功能,如果哪天樓主覺得以上的模塊不夠用可以試著先自己造個小輪子,比如通過代理來換ip等等。等理解了這些模塊時再學scrapy也不遲,而且事半功倍。至於安裝問題,pip install scrapy不就能解決嗎。。