python xpath爬取豆瓣图书Top 250存入csv文件并解决csv乱码问题

最新推荐文章于 2023-08-01 21:00:41 发布

阿优乐扬

最新推荐文章于 2023-08-01 21:00:41 发布

阅读量5.3k

点赞数 11

CC 4.0 BY-SA版权

分类专栏： Python实战文章标签： Python Xpath 爬取豆瓣图书top250 爬取遇见的坑解决csv乱码

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/ayouleyang/article/details/98397482

我上次分享过关于爬取豆瓣电影top250的实战：BeautifulSoup爬取豆瓣电影top250信息和 python BeautifulSoup爬取豆瓣电影top250信息并写入Excel表格，豆瓣网没有反爬虫机制，对于学习爬虫的小白是一个不错的学习对象，python xpath我是初步学习，对豆瓣图书 Top 250 进行实战学习，xpath的优点之一就是可以直接复制获取信息的节点，如图：
在这里插入图片描述
我要爬取的数据还是比较全面的，几乎都没有放过，有(排名,书名,地址,作者,翻译,星级,评分,评价,单价,出版社,出版日期,国家,评价)，其中“排名”在网页上没有，需要自己加上去，相比于豆瓣电影，豆瓣图书的坑更多。

爬豆瓣图书需要注意的几个坑！！！

1、图书在top250的排名
2、从p标签中截取作者、翻译者
3、获取星级数
4、截取国家
5、评价
6、csv乱码 （其实没错，就是乱码）

下面来讲解一下我解决这几个坑的的思路：

1、图书在top250的排名

在网页中没有显示它的排名，但我们都知道它是降序排的，从1~250，所有就直接通过循环写进csv就行了，但是初始值一定不能放在循环函数内，否则它就会被重新赋值或者只输出一个值，正确方法如下：
在这里插入图片描述

2、从p标签中截取作者、翻译者

这些信息都在p标签中，但国外的著作和国内的排布不一样，国外的会有翻译者在其中，中国的就只有作者一个，排名31的《倾城之恋》就没有作者。
2.1、国外著作p标签内容为：

<p class="pl">[国家] 作者 / 翻译者 / 出版社 /出版日期 / 价格</p>

国外的著作
获取的方法：
在这里插入图片描述
2.2、国内著作p标签内容为：

<p class="pl">作者 / 出版社 /出版日期 / 价格</p>

在这里插入图片描述
获取的方法：

2.3、没有作者的情况：

获取的方法：
（1）先对p标签分割成字符串
（2）len(p1.split(’/’)) 算出字符串的长度，这里的3是我先计算出来的，如果字符串长度等于3，说明它没有作者。

        elif len(p1.split('/'))==3:
            author = ' '

3、获取星级数

注意： 字符串不能直接被除，需要转化为int型
在这里插入图片描述

4、截取国家

只要会截取作者和翻译者，这个问题就不大了。也是通过“[外国]”来判断它的国籍的，中国的都没有写出来，所有没有“[ ]”的，我全部默认为中国，包括没有作者的。

        #截取国家
        if '[' in p1:            
            country = p1.split('[')[1]

最低0.47元/天解锁文章

200万优质内容无限畅学

评论 8

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。