用python抓取關鍵詞並解釋。

大蟒

打開應用程序

蘭姆在編碼方面很努力。

密切註意

學習日誌:Python實現網絡爬蟲——提取關鍵詞原創

2022-06-19 13:02:38

蘭姆在編碼方面很努力。

代碼年齡174天

密切註意

寫壹個Python代碼，向百度提交查詢關鍵詞“桃花源”，抓取百度的查詢結果，需要文字和鏈接。可以在瀏覽器中打開抓取的鏈接，也可以調用瀏覽器打開抓取的鏈接。

根據網站信息需要更改的內容在紅色框中。57031 baa 3a 394395 be 479 ad 89 f 1ff 15e . png

附上完整的代碼:

導入json

導入請求

從lxml導入etree

標題= {

“用戶代理”:“Mozilla/5.0(Windows NT 10.0；WOW64) AppleWebKit/537.36 (KHTML，像壁虎壹樣)”

" Chrome/88 . 0 . 4324 . 104 Safari/537.36 "

}

response = requests.get('/s？Wd=桃花源&；lm=0 '，標題=標題)

r =響應.文本

html = etree。HTML(r，etree。HTMLParser())

r1 = html.xpath('//h3 ')

R2 = html . XPath('//*[@ class = " content-right _ 8zs 40 "]')

R3 = html . XPath('//*[@ class = " c-row source _ 1 vdff OP _ LOG _ LINK c-gap-top-x small "]/a/@ href ')

對於範圍(4)中的I:

r11 = r1[i]。xpath('字符串(。)')

r22 = r2[i]。xpath('字符串(。)')

r33 = r3[i]

開著(‘桃花源。txt '，' a '，編碼='utf-8 ')作為c:

c . write(JSON . dumps(r 11，確保_ascii=False) + '\n ')

c.write(json.dumps(r22，確保_ascii=False) + '\n ')

c.write(json.dumps(r33，確保_ascii=False) + '\n ')

print(r11，end='\n ')

打印('-')

print(r22，end='\n ')

打印(r33)