网络爬虫实战(2)-爬取小说内容

前言:这两天我看了很多文章,尤其是那些观看人数1w+的文章,确实技术和现实比较贴合,比如说用代码抢票啊之类的,看他们人数那么多,我眼红了,哈哈哈哈,我也想那么多人看我文章,我是不是也应该发布一些类似内容啊,但我后面想了一下啊,我发布那些内容,有几个人能理清里面的逻辑思路,所以我想法还是和以前一样,慢慢深入,后面也会讲那些与现实比较切合的内容的,所以请大家不要着急,跟着我慢慢深入,最后我想要告诉大家:万物皆可python

1.定位你所需要的网站

很多人喜欢去网站上看小说(包括我),但是每次打开小说,右下角会出现一些不正常的广告,导致我啊在公众场合不敢打开,害怕出现社恐现象,而今天我教大家用代码把小说内容全都爬取出来,这样就避免用网站观看出现的社恐场面。当然为了避免版权问题,我用《三国演义》这篇小说作为演示内容,如果大家要爬取别的内容也可以,但要注意版权问题,千万别去牢房进修啊,在我看来啊,咋搞爬虫的比搞会计的进去的概率都大呢,好了不多说,直接开始吧

像我这也在网站上输入小说书名,随便找个网站进去,这里我进去的是第一个网站

点进去后是下面的内容,而我们要的内容是里面的详细内容,不是这也的列表

点进去任意一章,打开开发者窗口,在打开xpath helper插件,定位我们想要的内容,你会发现内容全部被div标签包裹住

<
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值