Python指定的url

今天我簡單用了python的re模塊和lxml模塊，用它們的正則表達式和xpath分析頁面源代碼，提取出需要的標題。xpath在完成這麽小的任務上效率非常高。我之所以在這裏使用正則表達式，是因為xpath在處理壹些特殊頁面時會出現亂碼。當然這不是xpath的原因，而是頁面本身編碼和utf-8轉碼的沖突。請看這裏的代碼:

Python提取指定url頁面的title方法(python獲取當前頁面的URL)。Python提取url標題腳本屋的1頁面。

# !/usr/bin/python

#-*-編碼:utf-8-*-

'''

功能:從指定url的頁面內容中提取標題。

'''

進口re

導入字符

導入urllib

從lxml導入etree

def utf8 _ transfer(str):

'''

Utf8編碼轉換

'''

嘗試:

如果是實例(strs，unicode):

strs = strs.encode('utf-8 ')

elif char det . detect(strs)[' encoding ']= ' GB 2312 ':

strs = strs.decode("gb2312 "，' ignore ')。編碼(“utf-8”)

elif chardet . detect(strs)[' encoding ']= = ' utf-8 ':

strs = strs.decode('utf-8 '，' ignore ')。編碼(“utf-8”)

除了例外，e:

打印“utf8 _傳輸錯誤”，strs，e

返回str

def get_title_xpath(Html):

'''

用xpath提取網頁標題

'''

Html = utf8_transfer(Html)

Html _ encoding = chardet . detect(Html)[' encoding ']

page = etree。HTML(Html，parser=etree。HTMLParser(編碼= Html _編碼