軟件推薦丨GoldDataSpider —— 網頁數據抽取工具

GoldDataSpider 是用於抓取網頁和抽取數據的工具。其核心代碼是從金色數據抓取融合平臺分離而來。

該項目提供抓取和抽取來自網頁數據，不僅可以抽取網頁內的內容，還能抽取URL、HTTP報頭、Cookie裏的數據。

該項目定義了壹種簡潔、靈活、敏捷的結構或者說是規則語法。極盡其所能將網頁內容、HTTP報頭、Cookie、甚至關聯其它網頁、其它網站數據，抽取出有意義有價值數據字段，組成壹條數據記錄。除此之外，還能內嵌http請求，以補充數據字段，比如某些字段需要向詞典提供翻譯這樣的字段等等。

該項目還可支持從各種類型文檔抽取數據，比如html/xml/json/javascript/text等。

我們還提供了規則可視化配制，請下載采集數量不受限、爬蟲數量不受限、導出數據數量不受限的完全免費金色數據平臺社區版。以及詳盡的文檔

使用入門

首先，我們需要將依賴加入項目當中，如下：

1、對於maven項目

2、對於gradle項目

然後妳將可以使用該依賴所提供的簡潔清晰的API，如下:

運行上面的測試，妳將可以看類似下面的輸出：

當作Service或者API使用

妳可以在項目中，可以當作調用服務和API使用。例如如下：

對於可視化配制，可以參考免費社區版文檔。以下就免費社區版做簡單介紹，詳情見官網！

免費社區版：

開源/免費

讓用戶更好理解和使用產品

我們針對數據采集免費，還開放和維護核心的開源代碼項目。讓用戶可以更好的使用、理解采集，用好采集。讓用戶在各種場景應用金色數據采集帶來的便利，我們有信心讓客戶見到壹個開放的數據平臺，讓用戶放心/省心/省力。

自由/靈活

透出壹股強大的采集核心

我們的采集器，將向用戶暴露壹切目標數據，除了常規網頁內容，還有如URL、HTTP報頭、Cookie等。還提供了各種解析工具和函數，讓用戶不僅能得到網頁內容裏的數據，還能得到URL、HTTP報頭、Cookie裏隱藏的核心數據，還能靈活做到智能防封。

分布式采集

私有雲，更靈活，更安全，更放心

可以根據自身需求，隨意部署采集器數量，7*24小時不間斷運行，采集後端集中靈活控制。可自由指揮數據在哪個采集器采集。可定義定時采集，無需人員值守。

數據可關聯可追蹤

恢復/重建數據內在與外在價值

可以讓每條數據隨著目標網站目標內容更新（如商品價格）、而更新用戶應用表該條數據相關字段內容。

非侵入式融合

融合從未如此現實和簡單

完全可以在不改變用戶應用表結構（增刪改表列），而將采集數據融入到應用表中。

自動化/壹體化

無需人力操作，即抓即用

不只是采集可以自動化抓取，融合也提供了手動化和強大自動化功能。還將采集與融合操作無縫對接，可將目標數據抓壹條融合壹條，實時流向應用表，做到即抓即用！

點擊下方鏈接，獲取軟件下載地址↓↓↓

GoldDataSpider首頁、文檔和下載 - 網頁數據抽取工具 - 開源中國