其實從接觸python到現在已經快大半年了,中間看過不少的視頻,也跟著別人的教程寫過不少東西,但是到現在還感覺沒有入門。其實中間也明白是為什麽,就好比小學生上課壹樣,上課認真聽,認真做筆記,可是下了課之後就從來不看筆記,也從來不寫作業。上課壹聽就懂,自己壹寫啥都不會,我相信很多人跟我現在是壹樣的感覺,所以現在創建這個作業集,壹來是想鞭策自己真真正正的寫點東西,二來也是希望廣大的讀者老師能夠給我批改批改作業,大家相互學習***同進步。
好了,現在開始進入正題。
但是我在這裏還是遇到了壹個小問題。比如說
上壹步呢我們獲取了所有漫畫的url保存在了壹個list當中,現在我們挨個請求comic_list中的url。
通過觀察網頁我們發現我們可以從網頁上直接看到漫畫壹***有多少頁(page_num),也就是多少張圖片。
(上壹章下壹章點開之後會發現跳到了另外壹部漫畫,所有我們不用在意,這裏的壹部漫畫很短)
正則是用來提取數字。
然後我們壹頁壹頁的點擊觀察url的變化會發現除了第壹頁的url就是漫畫的url外,其他從第二頁壹直到最後的url都是有規律的
找到規律這就簡單了,跟先前構造漫畫url差不多。我們構造構造除了第壹頁外的其他頁數的url
保存漫畫分兩步,首先是創建文件夾,其次是保存。
打開風之動漫拉到最下面我們可以看到在網站的最下面有壹個 網站地圖
獲取漫畫每壹話的標題和對應的url,保存到字典 comic_chapter_url_dict 中
最難的部分來了。
首先 通過F12 我們可以看到圖片的鏈接在壹個 id="mhpic" 的img標簽中
最後希望能夠幫助那些比我還小白的小白,也希望各位大神看過之後能夠指點壹二,不勝感激。
兩個爬蟲的 GitHub地址