Python爬虫——豆瓣读书

最新推荐文章于 2024-12-02 17:30:59 发布

原创

最新推荐文章于 2024-12-02 17:30:59 发布 · 3.5k 阅读

29 ·

CC 4.0 BY-SA版权

本文介绍如何使用Python爬虫抓取豆瓣读书网站的数据。通过requests获取网页HTML源码，然后利用lxml解析器提取h2标签内的书名信息。详细介绍了爬取过程及关键代码。

准备

豆瓣读书网址是：https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4?start=880&type=T

红色箭头标记的就是我们要获取的信息，我们有了目标信息，就能找到页面的源码，我们通过解析源码来获取信息数据，我们如何获取源码呢？这时可引入request来解决，实现代码如下：

import requests
 
resp = requests.get('https://book.douban.com/top250?start=0')
print(resp.text)

运行程序我们能就能得到HTML信息，问题来了，获取了HTML信息，怎样获取我们想要的目标信息呢？

打开浏览器，按键盘F12，从页面源码找到我们想要的目标信息，如图所示：

可以看到书名信息包含在class='info' h2标签里的a标签。发现目标位置后，我们可以利用BeautifulSoup来获得一个对象，按找标准的缩进显示的html代码：

#python环境中如果没有ba4和lxml，要先安装 pip install bs4 and pip install lxml
from bs4 import Beaut

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

ACGuan

关注关注

4
点赞
踩
29

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

基于爬虫技术的豆瓣读书信息采集

无心

11-27

1505

基于爬虫技术的豆瓣读书信息采集 1. 实验目标爬取豆瓣读书中排名前250本书的信息。 2. 实验主要使用的 ????????????ℎ????????Python 库名称版本简介 ????????????????????????????????Requests 2.23.02.23.0 爬虫网络请求 3. 实验适用的对象本课程假设您已经学习了 ????????????ℎ????????Python 基础，具备机器学习基础学习对象：本科学生、研究生、人工智能、算法相关研究者、

python爬虫——爬取豆瓣top250电影数据（适合初学者）

热门推荐

长弓同学的python学习笔记

09-12

5万+

爬取豆瓣top250其实是初学者用于练习和熟悉爬虫技能知识的简单实战项目，通过这个项目，可以让小白对爬虫有一个初步认识，因此，如果你已经接触过爬虫有些时间了，可以跳过该项目，选择更有挑战性的实战项目来提升技能。当然，如果你是小白，这个项目就再适合不过了。那么就让我们开始吧！目录一、实战1.对豆瓣网网站进行Ajax分析2.提取数据二、python完整代码（两种方法）bs4方法正则式方法。

参与评论您还未登录，请先登录后发表或查看评论

Python 爬取豆瓣读书

08-18

python 版本 3.6 入门级爬虫，爬取豆瓣读书，需要用到bs4、requests

爬虫-豆瓣读书

04-01

豆瓣读书爬虫 Python所写，豆瓣读书的爬虫，方便大家搜罗各种美美书！更新最近爬下了豆瓣所有的图书信息（3088633本，2138386KB），并做了一个界面方面与数据库交互来搜罗好书。注：这里的代码不是爬下所有书籍所用的代码，仅供参考。有机会的时候再公开代码和爬下的所有数据。

Python3实现豆瓣读书爬虫

weixin_34007020的博客

12-12

1406

doubanSpider.py # -*- coding: UTF-8 -*- import sys import time import urllib import requests import numpy as np from bs4 import BeautifulSoup from openpyxl import Workbook # So...

python爬虫（案例）——豆瓣读书爬虫

xiaoping__的博客

06-29

1万+

文章目录要爬取的内容一级页面（分类中图书的列表）二级页面（每本书的详情页）本案例中的防封ip小技巧多用几个user-agent（随机抽取）设置间隔时间完整代码本篇文章为豆瓣读书爬虫的案例，采用了xpath解析式，比较基础，未涉及其他深入的爬虫知识要爬取的内容根据豆瓣图书中不同的分类爬取图书的相关信息 ( 每个分类豆瓣最多给50页数据）一级页面（分类中图书的列表）爬取：书名（文本和url），作者，出版社，出版日期，评价数，缩略图链接，短简介二级页面（每本书的详情页）通过一级页面书名

Python爬虫——爬取豆瓣电影Top250代码实例

09-19

### Python爬虫——爬取豆瓣电影Top250代码实例 #### 一、项目背景与目标本项目旨在使用Python语言实现对豆瓣电影Top250榜单数据的爬取，并将爬取到的数据存储到Excel表格中。通过本项目的实践，可以加深对Python...

Python爬虫——豆瓣网（电影/书籍）评论并可视化

微生成白

02-11

5759

通过爬虫，获取豆瓣网的电影和书籍短评的数据（可视化）实例化需要输入movie或者book类别，还有相应的id 可以大概的对电影或书籍的信息可视化（仅供参考）

Python爬虫——豆瓣电影TOP250榜单爬取，并使用网页解析方法及excel操作库将排名号、电影名，年份，国家，类型评分，一句话影评requests、BeautifulSoup、openpyxl

最新发布

F2022697486的博客

12-02

1238

Python-豆瓣读书的爬虫

08-10

Python所写，豆瓣读书的爬虫，方便大家搜罗各种美美书！

python 爬虫，爬取豆瓣图书--源码【超详细】

04-11

1、本爬虫是爬取豆瓣网站上的TOP 250 图书信息，相关网址：https://book.douban.com/top250 2、本爬虫用到的模块有 requests,lxml,time 注：本程序只作为业余学习，程序中，对于“IndexError: list index out of range”报错，已经做了完美解决。

爬取豆瓣读书

08-28

爬取豆瓣读书某一列的标签，存储为CSV格式，为了不被系统封IP，用了点小技巧

Python爬虫豆瓣读书，让你时时刻刻获取书籍的第一手信息

Donnie_Song的博客

07-11

1126

读万卷书行万里路，书是我们获取知识的一大途径，读书可以让人变得精神勃发，让人，能够更加的理解和认识这个世界今天，给大家分享一个代码，让大家能够将豆瓣读书中的所有图书爬取下来，存储在本地准备我们可以进入到豆瓣读书的的分类界面，我们的目标是按照豆瓣图书的标签进行爬取，每一个标签生成一个csv文档，按照书名、作者、评分的格式进行存储我们本章用requests函数进行数据访问，用bs4进行数据的摘取和筛选初始化首先，我们定义一个类，初始化豆瓣读书的网址，书名、作者、评分三个list的信息 import

python爬取豆瓣图书

creater_X

04-10

2666

最近突然想学下爬虫爬取一下豆瓣的图书，按类别来爬取并分别存储，然后就用正则写了一份初级爬虫。 # -*- coding:utf-8 -*- import urllib2 import re import sys tags = [u'小说', u'散文', u'历史', u'爱情', u'管理', u'编程', u'生活', u'心理'] haveBooked = set() class B

学python是看书还是看视频-Python与豆瓣读书

weixin_37988176的博客

11-01

317

导语利用Python爬取豆瓣读书的一些数据，并对这些数据做一定的分析。标题可能改成类似“大数据时代如何科学有效地阅读”这样的题目更加引入瞩目吧，hhhhh。——>对过程不感兴趣的同学可以直接下拉到最后看结果~~~主要思路利用Python的requests模块和beautifulsoup模块来爬取豆瓣读书的数据，并对这些数据做一定的分析。爬取的数据包括：豆瓣图书各个分类中所有书籍的'书名', '作者...

豆瓣读书爬虫

yxl00112324的博客

12-22

402

搭建环境 import scrapy import numpy as np import pandas as pd import matplotlib.pyplot as plt 加载scrapy框架 cd … # 跳转到上一层目录 scrapy startproject booktop setting配置 ROBOTSTXT_OBEY = False # 君子协议 USER_AGENT = ‘Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.

PYTHON爬虫大作业：豆瓣读书“小说”标签下1000本书籍的爬取与分析

weixin_44102283的博客

07-10

1万+

PYTHON爬虫大作业：豆瓣读书“小说”标签下1000本书籍的爬取与分析项目概述数据爬取数据分析与可视化·书籍标签词云·箱线图与直方图·关联分析项目报告摘要一、数据爬取二、数据预处理三、数据存储四、数据分析五、结果与可视化六、结论本文记录笔者大二下学期选修课数据科学导论的期末大作业，新手小白，才疏学浅，欢迎批评指正。项目概述本项目框架如下：数据爬取数据分析与可视化项目报告数据爬取 import requests import re from bs4 import BeautifulSou

python爬虫实践（二）——爬取豆瓣读书信息

xiaozuo

04-14

952

python豆瓣读书爬虫实践代码实现： # -*- coding:utf-8 -*- ''' 爬取豆瓣读书Top250书名，作者，评分，简介主要用到了requests 和 Beautifulsoup ''' import requests from bs4 import BeautifulSoup #导入库 def get_html(url): #获取HTML的函...

掌握豆瓣读书数据抓取——Python爬虫教程

9. Python爬虫框架对于较为复杂的爬虫项目，Python 爬虫框架如 Scrapy 可以大大简化爬虫的开发。Scrapy 提供了数据抓取、处理、存储的框架支持，能有效提高开发效率。它拥有强大的中间件系统，可以用来处理请求、...