當前位置:成語大全網 - 古籍善本 - python3.9 .如何將網頁源代碼中爬取的漢字代碼轉換回漢字?

python3.9 .如何將網頁源代碼中爬取的漢字代碼轉換回漢字?

我以前覺得爬蟲是很高大上的東西,就像竊取別人的數據壹樣。現在我知道了,爬行動物能爬的就是網頁上能看到的。說白了就是別人給妳看的。

所謂爬蟲,就是先獲取網頁的源代碼,然後從源代碼中過濾出妳想要的資源,比如網頁上的圖片、視頻等文件,甚至網頁上的文字。接下來,我們使用Python來抓取網頁上的圖片。

首先,我們得到網站的源代碼。

然後我從成千上萬的源代碼中分析出我想要的資源。我這裏要的是網站上的圖片。

個人認為,這個爬蟲考驗的是正則表達式的基本功。如何寫好正則表達式,可以解析出妳想要的所有資源,其他的都比較簡單。

以下是我從網頁上爬下來的壹些圖片。