目前最適合用於寫爬蟲的語言是python,python中最受歡迎的爬蟲框架是scrapy,本文圍繞scrapy來展開講解爬蟲是怎麽工作的。
1.如下圖所示,爬蟲從編寫的spider文件中的start_urls開始,這個列表中的url就是爬蟲抓取的第壹個網頁,它的返回值是該url對應網頁的源代碼,我們可以用默認的parse(self,response)函數去打印或解析這個源代碼
2.我們獲取到源代碼之後,就可以從網頁源代碼中找到我們想要的信息或需要進壹步訪問的url,提取信息這壹步,scrapy中集成了xpath,正則(re),功能十分強大,提取到信息之後會通過yield進入到中間件當中。
中間件包括爬蟲中間件和下載中間件,爬蟲中間件主要用於設置處理爬蟲文件中的代碼塊,下載中間件主要用於判斷爬蟲進入網頁前後的爬取狀態,在此中間件中,妳可以根據爬蟲的返回狀態去做進壹步判斷。
最後我們將yield過來的item,即就是我們想要的數據會在pipeline.py文件中進行處理,存入數據庫,寫入本地文件,都可以在這裏進行,另外,為了減少代碼冗余,建議所有與設置參數有關的參數,都寫在settings.py中去