python3爬取新闻网站的所有新闻-新手起步

该篇文章适用于新手,让大家在刚接触爬虫的时候少踩点坑。作者接触python也有几个月时间了,最近要用python做数据采集的工作,因此要用爬虫去爬取各大门户网站。

好了,废话不多说,直接切入正题。

(声明:我整个工作都是在 windows下进行的。)

1.环境配置。

python就够了,关于windows下环境搭建,网上教程很多。

这里我附一个。(http://www.cnblogs.com/windinsky/archive/2012/09/20/2695520.html)

python环境确定搭建成功,就可以开始写程序去爬虫了。

2.要明确你所要爬取的网站结构。
(1)url

爬虫,实际上就是解析页面的url, 以及每个页面的标签元素(html那些)。因此,要先对你所要爬取的页面 url和内容的布局非常了解。

比如,我爬取的是凤凰网的所有新闻。 凤凰网上,大部分新闻正文的页面链接,都是这种形式,ifeng前面是新闻的分类,http://news.ifeng.com/a/20170623/51308599_0.shtml。

找到了规律,就可以用正则表达式把这些页面提取出来。

关于正则表达式的学习,网上也有很多教程。这里给大家附一个比较好的链接 http://www.jb51.net/article/57150.htm
(2)页面中的标签元素
我要提取的是新闻的标题和正文内容。 如前面所说,我找到了我想要的新闻页面,可以在浏览器里用F12, 来观察页面布局。
比如凤凰网新闻正文页面, 标题都在&l
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值