主要思路利用Python的requests模块和beautifulsoup模块来爬取豆瓣读书的数据,并对这些数据做一定的分析。
爬取的数据包括:
豆瓣图书各个分类中所有书籍的'书名', '作者/译者', '出版信息', '星级', '评分', '评价人数', '简介', '相应的豆瓣链接'。
例如:
同时,通过爬取的豆瓣链接对具体书籍的质量做一定的分析,分析包括:
制作热评词云、对热评进行简单的情感分析。
有需要者可自行修改源代码进行更多的数据分析。
豆瓣相关文件关注并转发后私信回复“豆瓣读书”获取。
说明(1)因为豆瓣严格限制爬虫,且实际使用时也没有必要爬取所有分类的图书资料,给豆瓣服务器带来不必要的压力,因此我给出的源代码一次仅能爬取一个小类的图书资料,且为单进程。
(2)在相关文件中,本人已经提供了爬取到的上百个分类的几万本图书数据,供有需要者参考。
PS:
建筑、漫画、日本漫画、耽美这四个小类的数据写入excel时抛出异常,因此暂时无法提供数据。
开发工具Python版本:3.5.4
相关模块:
requests模块、jieba模块、BeautifulSoup模块、openpyxl模块、matplotlib模块、wordclou