如何使用python爬取csdn博客訪問量

最近學習了python和爬蟲，想寫壹個程序練練手，所以我就想到了大家都比較關心的自己的博客訪問量，使用python來獲取自己博客的訪問量，這也是後邊我將要進行的項目的壹部分，後邊我會對博客的訪問量進行分析，以折線圖和餅圖等可視化的方式展示自己博客被訪問的情況，使自己能更加清楚自己的哪些博客更受關註，博客專家請勿噴，因為我不是專家，我聽他們說專家本身就有這個功能。

壹、網址分析

進入自己的博客頁面，網址為：patible; MSIE 5.5; Windows NT)'

headers = {'User-Agent':user_agent}

#構造請求

req = urllib2.Request(myUrl,headers=headers)

#訪問頁面

myResponse = urllib2.urlopen(req)

myPage = myResponse.read()

#在頁面中查找是否存在‘尾頁'這壹個標簽來判斷是否為最後壹頁

notLast = re.findall('尾頁',myPage,re.S)

print '-----------------------------第%d頁---------------------------------' % (page_num,)

#利用正則表達式來獲取博客的標題

title = re.findall('(.*?)',myPage,re.S)

titleList=[]

for items in title:

titleList.append(str(items).lstrip().rstrip())

#利用正則表達式獲取博客的訪問量

view = re.findall('閱讀((.*?))',myPage,re.S)

viewList=[]

for items in view:

viewList.append(str(items).lstrip().rstrip())

#將結果輸出

for n in range(len(titleList)):

print '訪問量:%s 標題:%s' % (viewList[n].zfill(4),titleList[n])

#頁號加1

page_num = page_num + 1

下面是部分結果：

輸入csdn的登錄賬號:xingjiarong

-----------------------------第1頁---------------------------------

訪問量:1821 標題:python編程常用模板總結

訪問量:1470 標題:設計模式之UML（壹）類圖以及類間關系（泛化、實現、依賴、關聯、聚合、組合）

訪問量:0714 標題:ubuntu14.04 安裝並破解MyEclipse2014

訪問量:1040 標題:ubuntu14.04 配置tomcat8

訪問量:1355 標題:java調用python方法總結

訪問量:0053 標題:Java多線程之Callable和Future

訪問量:1265 標題:跟我學匯編（三）寄存器和物理地址的形成

訪問量:1083 標題:跟我學匯編（二）王爽匯編環境搭建

訪問量:0894 標題:跟我學匯編（壹）基礎知識

訪問量:2334 標題:java多線程（壹）Race Condition現象及產生的原因

訪問量:0700 標題:Matlab矩陣基礎

訪問量:0653 標題:Matlab變量、分支語句和循環語句

訪問量:0440 標題:Matlab字符串處理

訪問量:0514 標題:Matlab運算符與運算

訪問量:0533 標題:Matlab的數據類型

-----------------------------第2頁---------------------------------

訪問量:0518 標題:OpenStack設計與實現（五）RESTful API和WSGI

訪問量:0540 標題:解決Android SDK Manager下載太慢問題

訪問量:0672 標題:OpenStack設計與實現（四）消息總線（AMQP）

訪問量:0570 標題:分布式文件存儲FastDFS（五）FastDFS常用命令總結

訪問量:0672 標題:分布式文件存儲FastDFS（四）配置fastdfs-apache-module

訪問量:0979 標題:分布式文件存儲FastDFS（壹）初識FastDFS

訪問量:0738 標題:分布式文件存儲FastDFS（三）FastDFS配置

訪問量:0682 標題:分布式文件存儲FastDFS（二）FastDFS安裝

訪問量:0511 標題:OpenStack設計與實現（三）KVM和QEMU淺析

訪問量:0593 標題:OpenStack設計與實現（二）Libvirt簡介與實現原理

訪問量:0562 標題:OpenStack設計與實現（壹）虛擬化

訪問量:0685 標題:食堂買飯的啟示

訪問量:0230 標題:UML之時序圖詳解

訪問量:0890 標題:設計模式之橋梁模式和策略模式的區別

訪問量:1258 標題:設計模式（十二）責任鏈模式

總結：

使用python編寫爬蟲，我個人總結了以下的步驟：

1、分析要抓取的網址特征，以確定如何生成相關網頁的網址，如果只爬取壹個網頁，則這壹步可以省略。

2、查看網頁的源碼，分析自己想要爬取的內容所在的標簽的特征。

3、使用正則表達式從源碼中將自己想要的部分摳出來。

4、編程實現。