當前位置:成語大全網 - 書法字典 - 如何抓取網站上的壹些信息?

如何抓取網站上的壹些信息?

兩種網站可以用不同的方式抓取。

首先,打開API的網站

如果壹個網站開放其API,它可以直接獲取其json數據。判斷壹個網站是否開通了API有三種方法。

1.在站內找到API入口;

2.用搜索引擎搜索“某網站API”;

3.抓住包。盡管壹些網站使用ajax,但他們仍然可以通過抓取包來獲取XHR的json數據(您可以使用包抓取工具抓取包或通過瀏覽器按F12來抓取包:F12-Network-F5刷新)。

第二,不開放API的網站

1.如果網站是靜態頁面,可以使用請求庫發送請求,然後使用HTML解析庫(lxml、parsel等)。)解析文本;的回應;解析庫強烈推薦使用Parsel。不僅語法與css選擇器相似,而且速度也相當快,這正是Scrapy所使用的。

2.如果網站是動態頁面,可以先使用selenium渲染JS,然後使用HTML解析庫解析驅動程序的page_source。