當前位置:成語大全網 - 成語詞典 - 軟件推薦丨GoldDataSpider —— 網頁數據抽取工具

軟件推薦丨GoldDataSpider —— 網頁數據抽取工具

GoldDataSpider 是用於抓取網頁和抽取數據的工具。其核心代碼是從金色數據抓取融合平臺分離而來。

該項目提供抓取和抽取來自網頁數據,不僅可以抽取網頁內的內容,還能抽取URL、HTTP報頭、Cookie裏的數據。

該項目定義了壹種簡潔、靈活、敏捷的結構或者說是規則語法。極盡其所能將網頁內容、HTTP報頭、Cookie、甚至關聯其它網頁、其它網站數據,抽取出有意義有價值數據字段,組成壹條數據記錄。除此之外,還能內嵌http請求,以補充數據字段,比如某些字段需要向詞典提供翻譯這樣的字段等等。

該項目還可支持從各種類型文檔抽取數據,比如html/xml/json/javascript/text等。

我們還提供了規則可視化配制,請下載采集數量不受限、爬蟲數量不受限、導出數據數量不受限的完全免費金色數據平臺社區版 。以及詳盡的文檔

使用入門

首先,我們需要將依賴加入項目當中,如下:

1、對於maven項目

2、對於gradle項目

然後妳將可以使用該依賴所提供的簡潔清晰的API,如下:

運行上面的測試,妳將可以看類似下面的輸出:

當作Service或者API使用

妳可以在項目中,可以當作調用服務和API使用。例如如下:

對於可視化配制,可以參考免費社區版文檔。以下就免費社區版做簡單介紹 ,詳情見官網!

免費社區版:

開源/免費

讓用戶更好理解和使用產品

我們針對數據采集免費,還開放和維護核心的開源代碼項目。讓用戶可以更好的使用、理解采集,用好采集。 讓用戶在各種場景應用金色數據采集帶來的便利,我們有信心讓客戶見到壹個開放的數據平臺,讓用戶放心/省心/省力。

自由/靈活

透出壹股強大的采集核心

我們的采集器,將向用戶暴露壹切目標數據,除了常規網頁內容,還有如URL、HTTP報頭、Cookie等。還提供了各種解析工具和函數,讓用戶不僅能得到網頁內容裏的數據,還能得到URL、HTTP報頭、Cookie裏隱藏的核心數據,還能靈活做到智能防封。

分布式采集

私有雲,更靈活,更安全,更放心

可以根據自身需求,隨意部署采集器數量,7*24小時不間斷運行,采集後端集中靈活控制。可自由指揮數據在哪個采集器采集。可定義定時采集,無需人員值守。

數據可關聯可追蹤

恢復/重建數據內在與外在價值

可以讓每條數據隨著目標網站目標內容更新(如商品價格)、而更新用戶應用表該條數據相關字段內容。

非侵入式融合

融合從未如此現實和簡單

完全可以在不改變用戶應用表結構(增刪改表列),而將采集數據融入到應用表中。

自動化/壹體化

無需人力操作,即抓即用

不只是采集可以自動化抓取,融合也提供了手動化和強大自動化功能。還將采集與融合操作無縫對接,可將目標數據抓壹條融合壹條,實時流向應用表,做到即抓即用!

點擊下方鏈接,獲取軟件下載地址↓↓↓

GoldDataSpider首頁、文檔和下載 - 網頁數據抽取工具 - 開源中國