1、在構造Spider時,要定義規則列表(rules=[]),並將其作為參數傳遞給Spider類的構造函數。
2、在規則列表中,每個規則都是壹個字典,包含規則匹配的URL模式,將要執行的Spider回調函數,用於將URL從父URL提取出來的正則表達式或CSS選擇器,應用此規則的優先級。
3、在爬蟲運行過程中,CrawlSpider會根據這些規則識別頁面中符合正則表達式的URL,並將其添加到請求隊列中,隨後,CrawlSpider對每個請求執行特定的回調函數。