python爬取新浪博客_Python爬取韩寒全部新浪博客

Python爬取韩寒所有新浪博客全攻略
本文介绍如何通过Python爬虫程序获取韩寒在新浪博客的所有文章。通过循环遍历不同页码,从第一页开始读取每个页面的博客链接,然后下载并保存文章内容。目前共爬取了7页,每页350篇文章。

接上一篇,我们根据第一页的链接爬取了第一页的博客,我们不难发现,每一页的链接就只有一处不同(页码序号),我们只要在上一篇的代码外面加一个循环,这样就可以爬取所有博客分页的博文,也就是所有博文了。

# -*- coding : -utf-8 -*-

import urllib

import time

url = [' ']*350

page = 1

link = 1

while page <=7://目前共有7页,3

con = urllib.urlopen('http://blog.sina.com.cn/s/articlelist_1191258123_0_'+str(page)+'.html').read()

i = 0

title = con.find(r'

while title != -1 and href != -1 and html != -1 and i<350:

url[i] = con[href + 6:html + 5]

content = urllib.urlopen(url[i]).read()

open(r'allboke/'+url[i][-26:],'w+').write(content)

print 'link',link,url[i]

title = con.find(r'

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值