大蟒
打開應用程序
蘭姆在編碼方面很努力。
密切註意
學習日誌:Python實現網絡爬蟲——提取關鍵詞原創
2022-06-19 13:02:38
蘭姆在編碼方面很努力。
代碼年齡174天
密切註意
寫壹個Python代碼,向百度提交查詢關鍵詞“桃花源”,抓取百度的查詢結果,需要文字和鏈接。可以在瀏覽器中打開抓取的鏈接,也可以調用瀏覽器打開抓取的鏈接。
根據網站信息需要更改的內容在紅色框中。57031 baa 3a 394395 be 479 ad 89 f 1ff 15e . png
附上完整的代碼:
導入json
導入請求
從lxml導入etree
標題= {
“用戶代理”:“Mozilla/5.0(Windows NT 10.0;WOW64) AppleWebKit/537.36 (KHTML,像壁虎壹樣)”
" Chrome/88 . 0 . 4324 . 104 Safari/537.36 "
}
response = requests.get('/s?Wd=桃花源&;lm=0 ',標題=標題)
r =響應.文本
html = etree。HTML(r,etree。HTMLParser())
r1 = html.xpath('//h3 ')
R2 = html . XPath('//*[@ class = " content-right _ 8zs 40 "]')
R3 = html . XPath('//*[@ class = " c-row source _ 1 vdff OP _ LOG _ LINK c-gap-top-x small "]/a/@ href ')
對於範圍(4)中的I:
r11 = r1[i]。xpath('字符串(。)')
r22 = r2[i]。xpath('字符串(。)')
r33 = r3[i]
開著(‘桃花源。txt ',' a ',編碼='utf-8 ')作為c:
c . write(JSON . dumps(r 11,確保_ascii=False) + '\n ')
c.write(json.dumps(r22,確保_ascii=False) + '\n ')
c.write(json.dumps(r33,確保_ascii=False) + '\n ')
print(r11,end='\n ')
打印('-')
print(r22,end='\n ')
打印(r33)