在頂行輸入以下代碼以導入 "html5lib" 模塊:
import html5lib
from html5lib import treebuilders, treewalkers, serializer
import urllib2
創建壹個新的 HTML 5 parser, 用來讀取壹個 HTML website. 輸入以下代碼聲明壹個新的 parser:
parser = html5lib.HTMLParser()
通過傳遞地址到 urllib2.urlopen 函數來打開壹個網站,例如, 如果妳要打開 "www.example.com", 輸入以下代碼:
url = urllib2.urlopen("").read()
傳遞網站到 HTML 5 parser 來接收到壹個 tree representation. 保存這個 representation 到壹個變量 "tree" 中, 代碼如下:
tree = parser.parse(url)
創建壹個 tree walker 如下:
treeWalker = treewalkers.getTreeWalker("dom")
使用這個treewalker遍歷整個 tree.這個 tree walker 將返回壹個覆蓋該html5網站的信息流. 遍歷整個tree的代碼如下:
stream = treeWalker(tree)
序列化信息流以便妳輸出到console.妳可以使用以下2條語句來序列化信息流:
serial = serializer.htmlserializer.HTMLSerializer(omit_optional_tags=False)
output = serial.serialize(stream)
對信息流的序列化輸出遍歷如下:
for element in output:
在上面壹句後面縮進下面的語句,並寫上壹個打印函數如下:
print(element)
按F5執行程序.腳本將打開並解析壹個 HTML 5 網頁. 腳本然後序列化頁面的樹形結構並輸出到console. 輸出可能會因為妳選擇的網頁不同而有所變化,可能會類似於下面的東西:
Welcome to a web page!