當前位置:成語大全網 - 書法字典 - Python解析庫lxml和xpath使用摘要

Python解析庫lxml和xpath使用摘要

本文主要關註xpath和lxml庫:

壹、xpath概念、xpath節點、xpath語法、xpath軸和xpath運算符。

二、安裝lxml、使用lxml、lxml案例

壹。xpath

1.xpath概念

XPath是壹種在XML文檔中查找信息的語言。XPath使用路徑表達式在XML文檔中導航。XPath包含壹個標準函數庫。XPath是XSLT中的主要元素。XPath是W3C標準。

2.xpath節點

Xpath有七種類型的節點:元素、屬性、文本、名稱空間、處理指令、註釋和文檔(根)節點。

節點關系:父親、兒子、兄弟、祖先、後代。

3.xpath語法

W3c網站上詳細介紹了Xpath語法,這裏截取了壹些知識供大家學習。

XPath使用路徑表達式來選擇XML文檔中的節點。通過遵循路徑或步驟來選擇節點。下面列出了最有用的路徑表達式:

在下表中,我們列出了壹些路徑表達式及其結果:

謂詞用於查找特定節點或包含指定值的節點。

謂詞嵌入在方括號中。

在下表中,我們列出了壹些帶有謂詞的路徑表達式以及表達式的結果:

XPath通配符可用於選擇未知的XML元素。

在下表中,我們列出了壹些路徑表達式以及這些表達式的結果:

您可以在路徑表達式中使用“|”運算符來選擇多條路徑。

在下表中,我們列出了壹些路徑表達式以及這些表達式的結果:

4.xpath軸

軸定義相對於當前節點的節點集。

5.xpath運算符

以下是可以在XPath表達式中使用的運算符:

好了,xpath到此為止。接下來,我們將介紹壹個工件lxml,它的速度非常快。當我使用beautifulsoup時,它壹直是我最喜歡的解析器,沒有之壹,因為它的速度真的比其他html.parser和html5lib快得多。

第二,lxml

1.lxml安裝

Lxml是壹個xpath格式解析模塊,易於安裝,可以直接pip install lxml或easy_install lxml。

2.lxml的使用

Lxml提供了兩種解析網頁的方法,壹種是解析自己的脫機網頁,另壹種是解析聯機網頁。

導入包:

1.解析脫機網頁:

2.解析在線網頁:

那麽我們如何獲得這些標簽及其對應的屬性值呢?很簡單。首先,您只需要這樣做來獲取標簽:

然後我們可以,例如,獲取A標簽中的文本及其屬性href對應的值。有兩種方法。

1.進入表情

2.脫離表達式

這就完成了收購,怎麽樣,是不是很簡單,哈哈哈。

讓我們回到lxml的解析規則:

3.lxml案例

為了偷懶,我決定用urllib的文章的代碼,哈哈哈,機智如我。