接上一篇,我们根据第一页的链接爬取了第一页的博客,我们不难发现,每一页的链接就只有一处不同(页码序号),我们只要在上一篇的代码外面加一个循环,这样就可以爬取所有博客分页的博文,也就是所有博文了。
# -*- coding : -utf-8 -*-
import urllib
import time
url = [' ']*350
page = 1
link = 1
while page <=7://目前共有7页,3
con = urllib.urlopen('http://blog.sina.com.cn/s/articlelist_1191258123_0_'+str(page)+'.html').read()
i = 0
while title != -1 and href != -1 and html != -1 and i<350:
url[i] = con[href + 6:html + 5]
content = urllib.urlopen(url[i]).read()
open(r'allboke/'+url[i][-26:],'w+').write(content)
Python爬取韩寒所有新浪博客全攻略
本文介绍如何通过Python爬虫程序获取韩寒在新浪博客的所有文章。通过循环遍历不同页码,从第一页开始读取每个页面的博客链接,然后下载并保存文章内容。目前共爬取了7页,每页350篇文章。
613

被折叠的 条评论
为什么被折叠?



