所謂爬蟲,就是先獲取網頁的源代碼,然後從源代碼中過濾出妳想要的資源,比如網頁上的圖片、視頻等文件,甚至網頁上的文字。接下來,我們使用Python來抓取網頁上的圖片。
首先,我們得到網站的源代碼。
然後我從成千上萬的源代碼中分析出我想要的資源。我這裏要的是網站上的圖片。
個人認為,這個爬蟲考驗的是正則表達式的基本功。如何寫好正則表達式,可以解析出妳想要的所有資源,其他的都比較簡單。
以下是我從網頁上爬下來的壹些圖片。