壹、xpath概念、xpath節點、xpath語法、xpath軸和xpath運算符。
二、安裝lxml、使用lxml、lxml案例
壹。xpath
1.xpath概念
XPath是壹種在XML文檔中查找信息的語言。XPath使用路徑表達式在XML文檔中導航。XPath包含壹個標準函數庫。XPath是XSLT中的主要元素。XPath是W3C標準。
2.xpath節點
Xpath有七種類型的節點:元素、屬性、文本、名稱空間、處理指令、註釋和文檔(根)節點。
節點關系:父親、兒子、兄弟、祖先、後代。
3.xpath語法
W3c網站上詳細介紹了Xpath語法,這裏截取了壹些知識供大家學習。
XPath使用路徑表達式來選擇XML文檔中的節點。通過遵循路徑或步驟來選擇節點。下面列出了最有用的路徑表達式:
在下表中,我們列出了壹些路徑表達式及其結果:
謂詞用於查找特定節點或包含指定值的節點。
謂詞嵌入在方括號中。
在下表中,我們列出了壹些帶有謂詞的路徑表達式以及表達式的結果:
XPath通配符可用於選擇未知的XML元素。
在下表中,我們列出了壹些路徑表達式以及這些表達式的結果:
您可以在路徑表達式中使用“|”運算符來選擇多條路徑。
在下表中,我們列出了壹些路徑表達式以及這些表達式的結果:
4.xpath軸
軸定義相對於當前節點的節點集。
5.xpath運算符
以下是可以在XPath表達式中使用的運算符:
好了,xpath到此為止。接下來,我們將介紹壹個工件lxml,它的速度非常快。當我使用beautifulsoup時,它壹直是我最喜歡的解析器,沒有之壹,因為它的速度真的比其他html.parser和html5lib快得多。
第二,lxml
1.lxml安裝
Lxml是壹個xpath格式解析模塊,易於安裝,可以直接pip install lxml或easy_install lxml。
2.lxml的使用
Lxml提供了兩種解析網頁的方法,壹種是解析自己的脫機網頁,另壹種是解析聯機網頁。
導入包:
1.解析脫機網頁:
2.解析在線網頁:
那麽我們如何獲得這些標簽及其對應的屬性值呢?很簡單。首先,您只需要這樣做來獲取標簽:
然後我們可以,例如,獲取A標簽中的文本及其屬性href對應的值。有兩種方法。
1.進入表情
2.脫離表達式
這就完成了收購,怎麽樣,是不是很簡單,哈哈哈。
讓我們回到lxml的解析規則:
3.lxml案例
為了偷懶,我決定用urllib的文章的代碼,哈哈哈,機智如我。