對於獲得的html代碼,我們可以通過使用正則表達式來獲得我們想要的內容。
例如,如果我們想獲取網頁上包括關鍵字“java”在內的所有文本內容,我們可以逐行將網頁代碼與正則表達式進行匹配。最後去掉html標簽和無關內容,只得到包含關鍵字“java”的內容。
從網頁抓取圖片的過程與抓取內容的過程基本相同,但會多壹個抓取圖片的步驟。
妳需要匹配img標簽的正則表達式來獲取img標簽,然後用src屬性的正則表達式獲取這個img標簽中src屬性的圖像url,然後通過緩沖輸入流對象讀取這個圖像url的圖像信息,並與fileoutputstream合作將讀取的圖像信息寫入本地。