該項目提供了從網頁中抓取和提取數據的功能,不僅可以提取網頁中的內容,還可以提取URL、HTTP頭和Cookie中的數據。
這個項目定義了壹個簡潔、靈活和敏捷的結構或常規語法。盡最大努力從網頁內容、HTTP頭、Cookie甚至與其他網頁和其他網站相關的數據中提取有意義和有價值的數據字段以形成數據記錄。此外,可以嵌入http請求來補充數據字段,例如需要為字典提供翻譯的字段等等。
該項目還可以支持從各種類型的文檔中提取數據,如html/xml/json/javascript/text。
我們還提供規則的可視化配置。請下載完全免費的黃金數據平臺社區版,不限采集數量、不限爬蟲數量和不限導出數據數量。和詳細的文檔。
入門指南
首先,我們需要向項目添加依賴項,如下所示:
1,用於maven項目
2.格雷項目。
然後您將能夠使用依賴項提供的簡潔明了的API,如下所示:
運行上面的測試,您將看到類似如下的輸出:
用作服務或API。
您可以將其用作項目中的調用服務和API。例如,如下所示:
對於視覺準備,您可以參考免費的社區版文檔。以下是免費社區版的簡介。詳情見官網!
免費社區版:
開源/免費
讓用戶更好地了解和使用產品。
我們免費收集數據,並開放和維護核心開源代碼項目。以便用戶更好地使用和了解收藏並善加利用。讓用戶在各種場景中應用黃金數據采集帶來的便利。我們相信客戶可以看到壹個開放的數據平臺,這將使用戶感到放心/擔心/努力。
自由/靈活性
展現強大的收藏核心。
我們的收集器將向用戶公開所有目標數據,除了常規的web內容,如URL、HTTP頭、Cookie等。它還提供了各種解析工具和功能,使用戶不僅可以獲取網頁內容中的數據,還可以獲取隱藏在URL、HTTP頭和Cookie中的核心數據,並且在反密封方面也很靈活。
分布式采集
私有雲,更靈活、更安全、更放心。
您可以根據自己的需求隨意部署收集器的數量,7*24小時連續運行,收集後端集中且靈活。您可以自由控制哪個收集器收集數據。您可以在沒有值班人員的情況下定義計劃收集。
可以關聯和跟蹤數據。
恢復/重建數據的內在和外在價值
每條數據可以隨著目標網站的目標內容(如商品價格)的更新而更新,並且可以更新用戶應用表中數據的相關字段的內容。
無創融合
整合從未如此現實和簡單。
完全可以將收集的數據集成到應用程序表中,而無需更改用戶應用程序表結構(添加、刪除和更改表列)。
自動化/集成
無需手動操作,即可使用。
不僅可以自動抓取收藏,而且fusion還提供了手動和強大的自動化功能。收集和融合操作也將無縫連接,目標數據可以被捕獲和融合,並實時流向應用程序表,以便可以立即使用!
單擊下面的鏈接獲取軟件下載地址
GoldDataSpider主頁、文檔和下載-網絡數據提取工具-開源中國