當前位置:成語大全網 - 書法字典 - Python多線程爬蟲抓取熱門小說內容(BeautifulSoup+urllib)

Python多線程爬蟲抓取熱門小說內容(BeautifulSoup+urllib)

我之前寫過python爬取啟點的小說,但是多線程是先把爬取的章節鏈接保存在壹個列表裏,然後寫壹個函數get_text。每次調用此函數時,都會傳遞壹個章節鏈接,因此需要調用此函數n次才能獲得n個章節的內容,因此可以使用for循環創建n個線程。線程的目標是get_text,參數是章節的url。

點壹下就好了辣眼睛哈哈哈

個人感覺使用多線程後速度沒有太大提升,大概20 txt文件/分鐘。有沒有辦法繼續提高單機上的抓取速度?

下壹步是做壹些可以被ip阻止的爬行行為,然後學習分布式爬蟲。加油~