當前位置:成語大全網 - 書法字典 - Python指定的url

Python指定的url

今天我簡單用了python的re模塊和lxml模塊,用它們的正則表達式和xpath分析頁面源代碼,提取出需要的標題。xpath在完成這麽小的任務上效率非常高。我之所以在這裏使用正則表達式,是因為xpath在處理壹些特殊頁面時會出現亂碼。當然這不是xpath的原因,而是頁面本身編碼和utf-8轉碼的沖突。請看這裏的代碼:

Python提取指定url頁面的title方法(python獲取當前頁面的URL)。Python提取url標題腳本屋的1頁面。

# !/usr/bin/python

#-*-編碼:utf-8-*-

'''

功能:從指定url的頁面內容中提取標題。

'''

進口re

導入字符

導入urllib

從lxml導入etree

def utf8 _ transfer(str):

'''

Utf8編碼轉換

'''

嘗試:

如果是實例(strs,unicode):

strs = strs.encode('utf-8 ')

elif char det . detect(strs)[' encoding ']= ' GB 2312 ':

strs = strs.decode("gb2312 ",' ignore ')。編碼(“utf-8”)

elif chardet . detect(strs)[' encoding ']= = ' utf-8 ':

strs = strs.decode('utf-8 ',' ignore ')。編碼(“utf-8”)

除了例外,e:

打印“utf8 _傳輸錯誤”,strs,e

返回str

def get_title_xpath(Html):

'''

用xpath提取網頁標題

'''

Html = utf8_transfer(Html)

Html _ encoding = chardet . detect(Html)[' encoding ']

page = etree。HTML(Html,parser=etree。HTMLParser(編碼= Html _編碼