如何使用Python模塊 html5lib

打開 IDLE,將會顯示壹個空白的界面.

在頂行輸入以下代碼以導入 "html5lib" 模塊:

import html5lib

from html5lib import treebuilders, treewalkers, serializer

import urllib2

創建壹個新的 HTML 5 parser, 用來讀取壹個 HTML website. 輸入以下代碼聲明壹個新的 parser:

parser = html5lib.HTMLParser()

通過傳遞地址到 urllib2.urlopen 函數來打開壹個網站,例如, 如果妳要打開 "www.example.com", 輸入以下代碼:

url = urllib2.urlopen("").read()

傳遞網站到 HTML 5 parser 來接收到壹個 tree representation. 保存這個 representation 到壹個變量 "tree" 中, 代碼如下:

tree = parser.parse(url)

創建壹個 tree walker 如下:

treeWalker = treewalkers.getTreeWalker("dom")

使用這個treewalker遍歷整個 tree.這個 tree walker 將返回壹個覆蓋該html5網站的信息流. 遍歷整個tree的代碼如下:

stream = treeWalker(tree)

序列化信息流以便妳輸出到console.妳可以使用以下2條語句來序列化信息流:

serial = serializer.htmlserializer.HTMLSerializer(omit_optional_tags=False)

output = serial.serialize(stream)

對信息流的序列化輸出遍歷如下:

for element in output:

在上面壹句後面縮進下面的語句,並寫上壹個打印函數如下:

print(element)

按F5執行程序.腳本將打開並解析壹個 HTML 5 網頁. 腳本然後序列化頁面的樹形結構並輸出到console. 輸出可能會因為妳選擇的網頁不同而有所變化,可能會類似於下面的東西:

Welcome to a web page!