Python提取指定url頁面的title方法(python獲取當前頁面的URL)。Python提取url標題腳本屋的1頁面。
# !/usr/bin/python
#-*-編碼:utf-8-*-
'''
功能:從指定url的頁面內容中提取標題。
'''
進口re
導入字符
導入urllib
從lxml導入etree
def utf8 _ transfer(str):
'''
Utf8編碼轉換
'''
嘗試:
如果是實例(strs,unicode):
strs = strs.encode('utf-8 ')
elif char det . detect(strs)[' encoding ']= ' GB 2312 ':
strs = strs.decode("gb2312 ",' ignore ')。編碼(“utf-8”)
elif chardet . detect(strs)[' encoding ']= = ' utf-8 ':
strs = strs.decode('utf-8 ',' ignore ')。編碼(“utf-8”)
除了例外,e:
打印“utf8 _傳輸錯誤”,strs,e
返回str
def get_title_xpath(Html):
'''
用xpath提取網頁標題
'''
Html = utf8_transfer(Html)
Html _ encoding = chardet . detect(Html)[' encoding ']
page = etree。HTML(Html,parser=etree。HTMLParser(編碼= Html _編碼