爬取豆瓣网图书TOP250的数据（一共250本书），书名、链接、作者、出版社、出版时间、价格、评分、评语

最新推荐文章于 2024-04-26 18:35:17 发布

CC-Betsy

最新推荐文章于 2024-04-26 18:35:17 发布

阅读量1.1k

点赞数 8

CC 4.0 BY-SA版权

分类专栏：爬虫文章标签： python 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_57695244/article/details/136357324

爬虫专栏收录该内容

1 篇文章

订阅专栏

from lxml import etree   
import pandas as pd  
import requests  
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36 Edg/122.0.0.0'}  
alldata = pd.DataFrame()  
for k in range(0, 10):  
    print('正在爬取第%d页的数据' % (k + 1))  
    url = f'https://book.douban.com/top250?start={k * 25}'  
    response = requests.get(url, headers=headers, timeout=200)  
    text = response.text  
    dom = etree.HTML(text)  
    desc = dom.xpath('//*[@id="content"]/div/div[1]/div/table/tr/td[2]/p[1]/text()')  
    href = dom.xpath('//*[@id="content"]/div/div[1]/div/table/tr/td[2]/div[1]/a/@href')  
    title = dom.xpath('//*[@id="content"]/div/div[1]/div/table/tr/td[2]/div[1]/a/@title')  
    rate = dom.xpath('//*[@id="content"]/div/div[1]/div/table/tr/td[2]/div[2]/span[2]/text()')  
    comment_raw = dom.xpath('//*[@id="content"]/div/div[1]/div/table/tr/td[2]/p[2]/span/text()')  
    # 检查并填充 comment 列表
    if len(comment_raw) < len(title):  
        comment = comment_raw + ["无评论"] * (len(title) - len(comment_raw))  
    else:  
        comment = comment_raw  
    author = [i.split('/')[0].strip() for i in desc]    
    publisher = [i.split('/')[-3].strip() for i in desc]    
    date = [i.split('/')[-2].strip() for i in desc]    
    price = [i.split('/')[-1].strip('元') for i in desc]  
    data = pd.DataFrame({  
        'name': title,  
        'url': href,  
        'author': author,  
        'publisher': publisher,  
        'date': date,  
        'price': price,  
        'rate': rate,  
        'comment': comment  
    })  
    alldata = pd.concat([alldata, data], axis=0, ignore_index=True)  
    alldata.to_csv('豆瓣Top250.csv',index =False,encoding='utf_8_sig')

博客等级

码龄4年

19
原创

72
点赞

157
收藏

350
粉丝

关注

私信

热门文章

分类专栏

爬虫 1篇
etl 8篇
sql 1篇

上一篇：: XML文件的数据抽取

下一篇：: 获取网页：“https://www.5iai.com/#/jobList”中的所有省份城市城区信息及其邮编，并将结果存储于excel文件中。

最新评论

获取网页：“https://www.5iai.com/#/jobList”中的所有省份城市城区信息及其邮编，并将结果存储于excel文件中。
优快云-Ada助手: 恭喜您成功获取了网页"https://www.5iai.com/#/jobList"中的所有省份城市城区信息及其邮编，并将结果存储于excel文件中！这是一项非常有用的工作，对于需要这些信息的人来说将会非常方便。接下来，我建议您可以尝试将这些信息整理成可视化的图表，以便更直观地展示给读者。期待看到您更多的创作，谢谢您的分享！
爬取豆瓣网图书TOP250的数据（一共250本书），书名、链接、作者、出版社、出版时间、价格、评分、评语
优快云-Ada助手: 恭喜您撰写了这么有价值的博客！爬取豆瓣网图书TOP250的数据确实是一项令人兴奋的挑战，而您不仅仅列出了书名、链接、作者等基本信息，还包括了出版社、出版时间、价格、评分和评语，让读者可以一目了然地了解每本书的情况。接下来，我建议您可以考虑进一步分析这些数据，比如对不同类型书籍的评分进行统计分析，或者总结出版社的出版趋势等等。期待您的下一篇博客！
第五章 Kettle数据的清洗与检验
m0_58550436: 可以给一下数据集吗？
不一致的数据源转换
ONE.619: 学长你太棒了
Kettle-7.0安装
优快云-Ada助手: 不知道 CS入门技能树是否可以帮到你：https://edu.youkuaiyun.com/skill/gml?utm_source=AI_act_gml

大家在看

AI是第四次革命，新时代将是“图钉式”阶层重构。

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

CC-Betsy 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。