python爬蟲的工作步驟

當前處於壹個大數據的時代，壹般網站數據來源有二：網站用戶自身產生的數據和網站從其他來源獲取的數據，今天要分享的是如何從其他網站獲取妳想要的數據。

目前最適合用於寫爬蟲的語言是python，python中最受歡迎的爬蟲框架是scrapy,本文圍繞scrapy來展開講解爬蟲是怎麽工作的。

1.如下圖所示，爬蟲從編寫的spider文件中的start_urls開始，這個列表中的url就是爬蟲抓取的第壹個網頁，它的返回值是該url對應網頁的源代碼，我們可以用默認的parse(self,response)函數去打印或解析這個源代碼

2.我們獲取到源代碼之後，就可以從網頁源代碼中找到我們想要的信息或需要進壹步訪問的url,提取信息這壹步，scrapy中集成了xpath,正則(re),功能十分強大，提取到信息之後會通過yield進入到中間件當中。

中間件包括爬蟲中間件和下載中間件，爬蟲中間件主要用於設置處理爬蟲文件中的代碼塊，下載中間件主要用於判斷爬蟲進入網頁前後的爬取狀態，在此中間件中，妳可以根據爬蟲的返回狀態去做進壹步判斷。

最後我們將yield過來的item，即就是我們想要的數據會在pipeline.py文件中進行處理，存入數據庫，寫入本地文件，都可以在這裏進行，另外，為了減少代碼冗余，建議所有與設置參數有關的參數，都寫在settings.py中去