壹、網址分析
進入自己的博客頁面,網址為:patible; MSIE 5.5; Windows NT)'
headers = {'User-Agent':user_agent}
#構造請求
req = urllib2.Request(myUrl,headers=headers)
#訪問頁面
myResponse = urllib2.urlopen(req)
myPage = myResponse.read()
#在頁面中查找是否存在‘尾頁'這壹個標簽來判斷是否為最後壹頁
notLast = re.findall('尾頁',myPage,re.S)
print '-----------------------------第%d頁---------------------------------' % (page_num,)
#利用正則表達式來獲取博客的標題
title = re.findall('(.*?)',myPage,re.S)
titleList=[]
for items in title:
titleList.append(str(items).lstrip().rstrip())
#利用正則表達式獲取博客的訪問量
view = re.findall('閱讀((.*?))',myPage,re.S)
viewList=[]
for items in view:
viewList.append(str(items).lstrip().rstrip())
#將結果輸出
for n in range(len(titleList)):
print '訪問量:%s 標題:%s' % (viewList[n].zfill(4),titleList[n])
#頁號加1
page_num = page_num + 1
下面是部分結果:
輸入csdn的登錄賬號:xingjiarong
-----------------------------第1頁---------------------------------
訪問量:1821 標題:python編程常用模板總結
訪問量:1470 標題:設計模式之UML(壹)類圖以及類間關系(泛化 、實現、依賴、關聯、聚合、組合)
訪問量:0714 標題:ubuntu14.04 安裝並破解MyEclipse2014
訪問量:1040 標題:ubuntu14.04 配置tomcat8
訪問量:1355 標題:java調用python方法總結
訪問量:0053 標題:Java多線程之Callable和Future
訪問量:1265 標題:跟我學匯編(三)寄存器和物理地址的形成
訪問量:1083 標題:跟我學匯編(二)王爽匯編環境搭建
訪問量:0894 標題:跟我學匯編(壹)基礎知識
訪問量:2334 標題:java多線程(壹)Race Condition現象及產生的原因
訪問量:0700 標題:Matlab矩陣基礎
訪問量:0653 標題:Matlab變量、分支語句和循環語句
訪問量:0440 標題:Matlab字符串處理
訪問量:0514 標題:Matlab運算符與運算
訪問量:0533 標題:Matlab的數據類型
-----------------------------第2頁---------------------------------
訪問量:0518 標題:OpenStack設計與實現(五)RESTful API和WSGI
訪問量:0540 標題:解決Android SDK Manager下載太慢問題
訪問量:0672 標題:OpenStack設計與實現(四)消息總線(AMQP)
訪問量:0570 標題:分布式文件存儲FastDFS(五)FastDFS常用命令總結
訪問量:0672 標題:分布式文件存儲FastDFS(四)配置fastdfs-apache-module
訪問量:0979 標題:分布式文件存儲FastDFS(壹)初識FastDFS
訪問量:0738 標題:分布式文件存儲FastDFS(三)FastDFS配置
訪問量:0682 標題:分布式文件存儲FastDFS(二)FastDFS安裝
訪問量:0511 標題:OpenStack設計與實現(三)KVM和QEMU淺析
訪問量:0593 標題:OpenStack設計與實現(二)Libvirt簡介與實現原理
訪問量:0562 標題:OpenStack設計與實現(壹)虛擬化
訪問量:0685 標題:食堂買飯的啟示
訪問量:0230 標題:UML之時序圖詳解
訪問量:0890 標題:設計模式之橋梁模式和策略模式的區別
訪問量:1258 標題:設計模式(十二)責任鏈模式
總結:
使用python編寫爬蟲,我個人總結了以下的步驟:
1、分析要抓取的網址特征,以確定如何生成相關網頁的網址,如果只爬取壹個網頁,則這壹步可以省略。
2、查看網頁的源碼,分析自己想要爬取的內容所在的標簽的特征。
3、使用正則表達式從源碼中將自己想要的部分摳出來。
4、編程實現。