前言:这两天我看了很多文章,尤其是那些观看人数1w+的文章,确实技术和现实比较贴合,比如说用代码抢票啊之类的,看他们人数那么多,我眼红了,哈哈哈哈,我也想那么多人看我文章,我是不是也应该发布一些类似内容啊,但我后面想了一下啊,我发布那些内容,有几个人能理清里面的逻辑思路,所以我想法还是和以前一样,慢慢深入,后面也会讲那些与现实比较切合的内容的,所以请大家不要着急,跟着我慢慢深入,最后我想要告诉大家:万物皆可python
1.定位你所需要的网站
很多人喜欢去网站上看小说(包括我),但是每次打开小说,右下角会出现一些不正常的广告,导致我啊在公众场合不敢打开,害怕出现社恐现象,而今天我教大家用代码把小说内容全都爬取出来,这样就避免用网站观看出现的社恐场面。当然为了避免版权问题,我用《三国演义》这篇小说作为演示内容,如果大家要爬取别的内容也可以,但要注意版权问题,千万别去牢房进修啊,在我看来啊,咋搞爬虫的比搞会计的进去的概率都大呢,好了不多说,直接开始吧
像我这也在网站上输入小说书名,随便找个网站进去,这里我进去的是第一个网站
点进去后是下面的内容,而我们要的内容是里面的详细内容,不是这也的列表
点进去任意一章,打开开发者窗口,在打开xpath helper插件,定位我们想要的内容,你会发现内容全部被div标签包裹住