當前位置:成語大全網 - 成語詞典 - 爬蟲抓取究竟是什麽?

爬蟲抓取究竟是什麽?

就是從網頁中,提取出結構化數據。另外的特點,就是自動化,節省人力。通過訪問網站 然後獲取到妳想要的信息。

簡要地說爬蟲抓取的是數據或信息。根據不同的行業及應用,爬蟲所抓取的數據各有不同的偏重,壹般來說是業務需要那些數據,那抓取對應的數據回來,再經過清洗、轉化等步驟促進業務增長與輔助決策。

抓取目標分類

抓取目標的描述和定義是決定網頁分析算法與URL搜索策略如何制訂的基礎。而網頁分析算法和候選URL排序算法是決定搜索引擎所提供的服務形式和爬蟲網頁抓取行為的關鍵所在。這兩個部分的算法又是緊密相關的。

現有聚焦爬蟲對抓取目標的描述可分為基於目標網頁特征、基於目標數據模式和基於領域概念3種。

1、基於目標網頁特征

基於目標網頁特征的爬蟲所抓取、存儲並索引的對象壹般為網站或網頁。根據種子樣本獲取方式可分為:

(1)預先給定的初始抓取種子樣本。

(2)預先給定的網頁分類目錄和與分類目錄對應的種子樣本,如Yahoo!分類結構等。

(3)通過用戶行為確定的抓取目標樣例,分為:用戶瀏覽過程中顯示標註的抓取樣本;通過用戶日誌挖掘得到訪問模式及相關樣本。

其中,網頁特征可以是網頁的內容特征,也可以是網頁的鏈接結構特征,等等。

2、基於目標數據模式

基於目標數據模式的爬蟲針對的是網頁上的數據,所抓取的數據壹般要符合壹定的模式,或者可以轉化或映射為目標數據模式。

3、基於領域概念

另壹種描述方式是建立目標領域的本體或詞典,用於從語義角度分析不同特征在某壹主題中的重要程度。