該項目提供抓取和抽取來自網頁數據,不僅可以抽取網頁內的內容,還能抽取URL、HTTP報頭、Cookie裏的數據。
該項目定義了壹種簡潔、靈活、敏捷的結構或者說是規則語法。極盡其所能將網頁內容、HTTP報頭、Cookie、甚至關聯其它網頁、其它網站數據,抽取出有意義有價值數據字段,組成壹條數據記錄。除此之外,還能內嵌http請求,以補充數據字段,比如某些字段需要向詞典提供翻譯這樣的字段等等。
該項目還可支持從各種類型文檔抽取數據,比如html/xml/json/javascript/text等。
我們還提供了規則可視化配制,請下載采集數量不受限、爬蟲數量不受限、導出數據數量不受限的完全免費金色數據平臺社區版 。以及詳盡的文檔
使用入門
首先,我們需要將依賴加入項目當中,如下:
1、對於maven項目
2、對於gradle項目
然後妳將可以使用該依賴所提供的簡潔清晰的API,如下:
運行上面的測試,妳將可以看類似下面的輸出:
當作Service或者API使用
妳可以在項目中,可以當作調用服務和API使用。例如如下:
對於可視化配制,可以參考免費社區版文檔。以下就免費社區版做簡單介紹 ,詳情見官網!
免費社區版:
開源/免費
讓用戶更好理解和使用產品
我們針對數據采集免費,還開放和維護核心的開源代碼項目。讓用戶可以更好的使用、理解采集,用好采集。 讓用戶在各種場景應用金色數據采集帶來的便利,我們有信心讓客戶見到壹個開放的數據平臺,讓用戶放心/省心/省力。
自由/靈活
透出壹股強大的采集核心
我們的采集器,將向用戶暴露壹切目標數據,除了常規網頁內容,還有如URL、HTTP報頭、Cookie等。還提供了各種解析工具和函數,讓用戶不僅能得到網頁內容裏的數據,還能得到URL、HTTP報頭、Cookie裏隱藏的核心數據,還能靈活做到智能防封。
分布式采集
私有雲,更靈活,更安全,更放心
可以根據自身需求,隨意部署采集器數量,7*24小時不間斷運行,采集後端集中靈活控制。可自由指揮數據在哪個采集器采集。可定義定時采集,無需人員值守。
數據可關聯可追蹤
恢復/重建數據內在與外在價值
可以讓每條數據隨著目標網站目標內容更新(如商品價格)、而更新用戶應用表該條數據相關字段內容。
非侵入式融合
融合從未如此現實和簡單
完全可以在不改變用戶應用表結構(增刪改表列),而將采集數據融入到應用表中。
自動化/壹體化
無需人力操作,即抓即用
不只是采集可以自動化抓取,融合也提供了手動化和強大自動化功能。還將采集與融合操作無縫對接,可將目標數據抓壹條融合壹條,實時流向應用表,做到即抓即用!
點擊下方鏈接,獲取軟件下載地址↓↓↓
GoldDataSpider首頁、文檔和下載 - 網頁數據抽取工具 - 開源中國