爬取豆瓣上某个用户标记的想读的或者读过的图书信息

最新推荐文章于 2024-05-09 22:22:52 发布

转载最新推荐文章于 2024-05-09 22:22:52 发布 · 557 阅读

2 ·

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/liquan/p/9160591.html

文章标签：

#爬虫 #python

该程序用于爬取豆瓣用户标记的想读或已读书籍，并将其保存为Excel文件。支持自动遍历多页获取书籍详细信息。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一，程序的功能和适用人群

程序的功能是爬取豆瓣用户标记的想读或者读过的的图书，将图书信息保存为excel文件。适用于想备份在豆瓣上标记的图书的用户。

二，执行效果

程序执行后会得到一个excel文件，保存了用户想要读的或者读过的图书信息，如下图：

三，技术路线

技术路线是选取用户在豆瓣上标记的想读的或者读过的图书的首页url作为种子url，如下图

遍历这一页中所有的图书信息，通过每本图书链接抓取每本图书的具体信息，以下左图是首页的图书信息，右图是通过左图的链接进入的要爬取的具体的图书信息。

在爬取首页的url中的所有图书时，判断是否还有下一页，如果有，则爬取下一页的图书信息，直至没有要爬取的下一页图书信息。

四，发布方式和下载链接

源代码发布在github上，地址：https://github.com/041240515lq/python_spider/blob/master/spiderBook.py

程序编译成exe发布，exe程序下载地址 https://download.youkuaiyun.com/download/u014223772/10469357

五，未来的发展

未来准备爬取某个用户和他所关注的人的共同想读的书和共同读过的书。但需要控制规模，比如A关注了B，B关注了C，爬取A,B,C三者的共同读过的书。

转载于:https://www.cnblogs.com/liquan/p/9160591.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_30432007

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Python爬虫实战：研究pycrumbs库，构建豆瓣读书数据采集系统

ylfhpy的博客

08-04

189

目前主流工具如 Requests（HTTP 请求）、BeautifulSoup（网页解析）、Scrapy（爬虫框架）已形成成熟的技术体系，但在复杂场景中仍面临挑战：例如，爬取路径不可追溯导致的调试困难、网站结构动态变化带来的爬取策略调整难题、反爬机制升级导致的稳定性下降等。将其与爬虫技术结合，既能实现数据采集，又能通过路径分析优化爬取策略，具有重要的实践价值。的 Python 库，核心功能是记录 URL 访问轨迹、跳转关系及元数据，支持路径查询、统计与可视化。（针对特定网站 / 主题，精准采集）。

爬取某个用户在豆瓣上标记的想读的图书

06-09

爬取某个用户在豆瓣上标记的想读的图书，并将结果存储为excel文件，程序需要在控制台下运行。运行时切换到exe程序所在的目录，输入spiderBook.exe "用户标记的想读的图书的首页url" "excel文件的名字"。例如 spiderBook.exe D:\heh\爬取某个人在豆瓣标记的想读的图书\dist>spiderBook.exe "https://book.douban.com/people/154001100/wish" "李权标记的想读的图书"

参与评论您还未登录，请先登录后发表或查看评论

数据采集之豆瓣读书

weixin_45044349的博客

05-30

545

爬取【豆瓣读书https://book.douban.com/latest?icn=index-latestbook-all】，并将爬取的内容添加导数据库中。数据库 cmd C:\Users\admin>mysql -u root -p mysql> show databases; mysql> use spier; mysql> create table douban(Id Int,BookName varchar(100),Score varchar(20),Autor va

豆瓣个人信息的爬取

u013109501的博客

08-21

2918

通过scrapy框架模拟登陆豆瓣并进入个人信息页面 # -*- coding: utf-8 -*- import scrapy from scrapy.http import Request,FormRequest import urllib.request class DbSpider(scrapy.Spider): name = 'db' allowed_domains ...

Python爬取豆瓣看过的书

vagabond6的博客

03-20

666

直接附上python代码： #coding=utf-8 import requests from requests.exceptions import RequestException import re import json import xlwt import xlrd def get_one_page(url): headers = { 'Host':'b...

【爬虫实践】爬虫获取豆瓣用户粉丝信息

梦魇皇朝的博客

11-13

3819

有这样大一个需求，获取豆瓣大V粉丝观影数。我开始觉得这种应该很好获取，通过使用shell利用grep和awk 几行就可以搞定了，后来我发觉需要使用登陆才能获取豆瓣用户关注人，我打算利用curl 带cookie来实现登陆，不过都失败了，所以我利用python实现登陆，然后调用shell来获取一些用户信息，具体代码如下： python脚本： #-*-coding:utf-8-*- import ...

爬去豆瓣上任意两个用户标记的读过的图书

06-05

在命令行执行outputCommonWantBook.exe时，需要输入三个参数 ...第一个参数为目标用户1想读的图书的url，第二个参数为目标用户2想读的图书的url，第三个参数为将爬取的结果保存为excel文件的文件名。

一些非常有趣的python爬虫例子对新手比较友好主要爬取淘宝天猫微信微信读书豆瓣QQ等网站Some interesti.zip

最新发布

01-12

微信读书和豆瓣这类平台则提供了丰富的书籍和电影信息，爬取这些数据可以让新手学习到如何处理带有版权保护的内容，以及如何遵循相关法律法规。 QQ作为一款即时通讯软件，它的爬取技术涉及到对用户隐私的保护和技术...

爬虫工具批量导出豆瓣用户读过的图书列表

标题为“爬去豆瓣上任意两个用户标记的读过的图书”。此标题暗示了我们要讨论的是一个网络爬虫程序，其用途是自动获取豆瓣网站上特定用户标记为“已读”的图书信息。描述知识点：描述中提到，在命令行执行名为...

R语言RCurl爬虫（多线程爬虫）-高评分豆瓣图书

关注我，你就是我的电子朋友咯！

11-09

2823

R语言爬虫-高评分图书（豆瓣） # R语言爬虫-高评分图书（豆瓣）本篇文章依然延续之前的爬虫类型文章，多次实操有助于对于代码的理解和技术的提升。此次爬取的是豆瓣上高评分的图书，每一次爬取都会给大家提供一份有价值、有意义的东西，每一次都有所提升，我是ERIC，希望喜欢这方面技术的或者对于发表的内容感兴趣都可以相互交流，共同提升。（此篇爬虫数据采集后只进行了简单的可视化分析，未进...

python爬取豆瓣每个账户对电影的评分和影评，绘制评分饼图和影评词云图

04-14

（1）打开豆瓣一部电影评论区，根据html结构捕获三个信息：一，每账号的评分等级为5星、4星、3星、2星、1星；二，每个账号的评论留言；三，跳转到下个评论页面的http链接（2）获取所有的信息后对信息进行处理：一，计算出每个星级的总数和一共多少账户进行了评级二、将所有的评论内容放在一起，处理评论中的空格和其他不规范形式（3）用matplotlib绘制评分等级占比的饼图，用jieba进行分词处理，用wordcloud生成词云图同个修改url=https://movie.douban.com/subject/26430636/comments?start=0&limit=20&sort=new_score&status=P&percent;_type= 之中“26430636”为电影的代表，将其换做其他的编号就可以读取和生成其他电影的matplotlib和wordcloud制作评分图和词云图

数据获取：豆瓣电影信息爬取

MangoGO的博客

02-06

6748

本文并不是专业的爬虫指导，只能说是一位爬虫菜鸟的学习笔记。仅就粗浅的爬虫经验，总结一些探索过程。

【python基础】爬虫练习

mate1357的博客

09-09

2174

爬取豆瓣网电影评论用户的观影习惯数据能够得出用户的观影时间偏好、观影类型偏好、观影评分偏好、观影影院偏好和地理位置偏好等信息。通过这些数据分析，豆瓣网能够更好地为用户推荐电影和为广告主提供更精准的广告投放服务。在这里给大家分享一些免费的课程供大家学习，下面是课程里面的截图，点击蓝色字体也可以进行跳转哦~点击这里。

豆瓣读书文学tag数据爬取分析存储并可视化项目

m0_63276793的博客

05-09

1686

为了了解书籍的质量和大众的喜好，选择优质且受大众推捧的书籍，我们借助了爬虫工具爬取了豆瓣读书网站的1000本书籍，运用bs4模块中的BeautifulSoup方法进行了数据的初步过滤并且将数据存入csv文件和数据库中，而且还借助了腾讯的cos服务存入云服务器，然后采用pandas模块读入csv文件进行数据分析，得到评价人数由高到低基础上评分由高到低的top50，最后采用pyecharts进行数据的可视化。根据需要的字段，分析网页代码，过滤出需要的数据信息，这里过滤出来的是书名、评分、评价人数。

Scrapy登录爬取豆瓣个人中心页

SteveForever的博客

08-19

425

# -*- coding: utf-8 -*- import urllib import scrapy from os import path from scrapy import Request, FormRequest import os #登录爬取豆瓣 d = path.dirname(__file__) if "__file__" in locals() else os.getcwd...

爬取豆瓣读书-豆瓣成员常用的标签（Python爬虫实战）

shaomingmin的博客

05-12

1290

前两篇博客，我们介绍了如何对豆瓣读书中用户信息和都是历史记录进行抓取，这一篇博客是一个收尾工作。传送门：爬取豆瓣读书-用户信息页链接（Python爬虫实战）爬取豆瓣读书-用户所有阅读书籍名称、日期和书籍链接（Python爬虫实战）本文适用于利用标签系统（Tagging System）对豆瓣读书用户的读书兴趣建模，对用户进行相关推荐研究工作。 import requests from bs4 import BeautifulSoup headers = { "Host": "book.d

获取豆瓣用户看过的电影名以及评分，短评，标签等

梦魇皇朝的博客

07-14

4902

数据定向到mysql数据库中，并备份到本地文件#/bin/bash # name: get_see_movies.sh # version: 1.0 # ceateTime: 2018-08-12 # description: 输入豆瓣用户id,获取所有看过的电影以及评分，标签等，并存到数据库中 # author: mengyanhuangchao ...

豆瓣图书数据分析