用reuqests發送GET請求,發現抓取的信息的數據源(url)包含在返回的HTML中,獲取該數據源(url),再用requests庫發送GET請求獲取數據;(這個不同於AJAX,因為數據源不用在Chrome debugger中查看XHR對象獲取。網站的原理是從數據源獲取數據,然後用JS渲染。數據源的API在返回的HTML中就可以找到,很方便。)
獲取的數據其實是壹個JS對象(var x = {}),裏面包含了每段新聞的JSON字符串; 並不是單純壹個JSON字符串,所以要用re正則表達式提取;
遍歷每壹條的新聞,將新聞JSON字符串轉換為Python字典,那就可以用get方法獲取所要的信息。