首先,打開API的網站
如果壹個網站開放其API,它可以直接獲取其json數據。判斷壹個網站是否開通了API有三種方法。
1.在站內找到API入口;
2.用搜索引擎搜索“某網站API”;
3.抓住包。盡管壹些網站使用ajax,但他們仍然可以通過抓取包來獲取XHR的json數據(您可以使用包抓取工具抓取包或通過瀏覽器按F12來抓取包:F12-Network-F5刷新)。
第二,不開放API的網站
1.如果網站是靜態頁面,可以使用請求庫發送請求,然後使用HTML解析庫(lxml、parsel等)。)解析文本;的回應;解析庫強烈推薦使用Parsel。不僅語法與css選擇器相似,而且速度也相當快,這正是Scrapy所使用的。
2.如果網站是動態頁面,可以先使用selenium渲染JS,然後使用HTML解析庫解析驅動程序的page_source。