請求頭,發送訪問後,服務器收到的最直接的感覺就是請求頭。因此,首先,請求頭應該與瀏覽器的請求相同。目前,請求的頻率主要是用戶代理、主機、Referer等。機器的訪問速度必須比人類請求的速度快得多。如果妳壹秒鐘有幾十個請求,肯定不難區分妳是壹個爬蟲,可以讓程序休息壹下。
Cookie,當用戶訪問網站時,它伴隨著存儲登錄信息等的cookie。,這可以通過使用會話來實現。
資源請求,在訪問頁面時,壹般不僅僅是壹個html文件,還伴隨著壹些資源請求,如css、jpg、json等。爬網程序通常不會請求所有這些資源。當然,您可以使用瀏覽器自動化控制模塊(selenium等。)來控制瀏覽器請求。
驗證碼等。,有些頁面會附帶驗證碼,用於確定訪問者是人還是機器,但壹般的驗證碼對我們來說當然不難。
以上是我個人對Python爬蟲和瀏覽器區別的看法,不能完全概括。我希望妳能給我提建議。