在爬取數據之前,需要下載並安裝兩個東西,壹個是urllib,另壹個是python-docx。
請點擊輸入圖片說明。
然後在python的編輯器中輸入導入選項,以提供這兩個庫的服務。
請點擊輸入圖片說明。
Urllib主要負責抓取網頁的數據。簡單抓取網頁的數據其實很簡單。如圖所示輸入命令,後跟壹個鏈接。
請點擊輸入圖片說明。
抓下來的,不算數,必須讀,否則無效。
請點擊輸入圖片說明。
五
下壹步是抓取代碼,不翻代碼就無法保存。解碼讀取功能。隨便再標壹個,比如XA。
請點擊輸入圖片說明。
六
最後再輸入三句話。第壹句話的意思是創建壹個新的空白word文檔。
第二句話的意思是在文檔中添加壹個文本段落,並介紹變量XA抓取的內容。
第三句意思是保存文檔docx,名字在括號裏。
請點擊輸入圖片說明。
七
這是源代碼,如果妳還需要過濾,妳需要自己添加各種正則表達式。