Python漫畫爬蟲兩彈

其實從接觸python到現在已經快大半年了，中間看過不少的視頻，也跟著別人的教程寫過不少東西，但是到現在還感覺沒有入門。其實中間也明白是為什麽，就好比小學生上課壹樣，上課認真聽，認真做筆記，可是下了課之後就從來不看筆記，也從來不寫作業。上課壹聽就懂，自己壹寫啥都不會，我相信很多人跟我現在是壹樣的感覺，所以現在創建這個作業集，壹來是想鞭策自己真真正正的寫點東西，二來也是希望廣大的讀者老師能夠給我批改批改作業，大家相互學習***同進步。

好了，現在開始進入正題。

但是我在這裏還是遇到了壹個小問題。比如說

上壹步呢我們獲取了所有漫畫的url保存在了壹個list當中，現在我們挨個請求comic_list中的url。

通過觀察網頁我們發現我們可以從網頁上直接看到漫畫壹***有多少頁（page_num），也就是多少張圖片。

（上壹章下壹章點開之後會發現跳到了另外壹部漫畫，所有我們不用在意，這裏的壹部漫畫很短）

正則是用來提取數字。

然後我們壹頁壹頁的點擊觀察url的變化會發現除了第壹頁的url就是漫畫的url外，其他從第二頁壹直到最後的url都是有規律的

找到規律這就簡單了，跟先前構造漫畫url差不多。我們構造構造除了第壹頁外的其他頁數的url

保存漫畫分兩步，首先是創建文件夾，其次是保存。

打開風之動漫拉到最下面我們可以看到在網站的最下面有壹個網站地圖

獲取漫畫每壹話的標題和對應的url，保存到字典 comic_chapter_url_dict 中

最難的部分來了。

首先通過F12 我們可以看到圖片的鏈接在壹個 id="mhpic" 的img標簽中

最後希望能夠幫助那些比我還小白的小白，也希望各位大神看過之後能夠指點壹二，不勝感激。

兩個爬蟲的 GitHub地址