python爬虫爬取豆瓣图书

最新推荐文章于 2024-06-06 18:25:37 发布

原创

最新推荐文章于 2024-06-06 18:25:37 发布 · 3.8k 阅读

38 ·

CC 4.0 BY-SA版权

本文介绍了使用Python爬虫抓取豆瓣图书Top250第一页的书名和链接。通过PyCharm，结合requests和BeautifulSoup库，解析网页源代码，定位到<div class='pl2'>，并使用find_all和find方法提取所需信息。最后，成功打印出书名和链接。

爬取豆瓣图书top250的第一页

我最终爬取的是图书的书名,链接

先要做个说明,如果你是编程高手的话,这边文章你就不用看了,如果你是个python爬虫小白的话,可以看看这篇原创

我将用到的软件是pycharm,将要用到的模块是requets, BeautifulSoup.

爬虫很关键的是对网页原代码的分析,在这里我选择的网页是https://book.douban.com/top250,用的浏览器是谷歌浏览器.

1. 我们进入网页后,按鼠标右键—检查—进入网页代码

2. 在pycharm上先写第一段代码

import requests
from bs4 import BeautifulSoup
url = "https://book.douban.com/top250"  # 要爬取的网页
hea

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

「已注销」

关注关注

4
点赞
踩
38

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

爬虫基础案例：爬取豆瓣读书 TOP250 图书信息

2503_91057718的博客

10-30

1605

本文详细介绍了豆瓣读书TOP250榜单爬虫的实现过程。通过分析网页结构特点，使用Requests库发送HTTP请求，BeautifulSoup解析HTML内容，提取图书名称、作者、评分等关键信息，并存储为CSV文件。案例涵盖了从网页请求、数据解析到存储分析的全流程，重点讲解了应对反爬的策略，如请求头设置、随机延迟等技术。文章不仅展示了静态网页爬虫的开发技巧，还提供了扩展优化建议和法律伦理考量，帮助读者掌握爬虫开发的核心技能，为后续复杂项目奠定基础。

Python爬虫爬取豆瓣top250

weixin_54485193的博客

05-01

3441

安装相应库以后，直接复制代码，运行，输入起始页码 1，截至页码 10，就可以了，豆瓣是一页25条数据（现在是2022年5月1日，以后人家更新具体会换每页几条数据不确定，但是随之页码也要换，不换就有可能报错） import urllib.request import urllib.parse def create_request(page): base_url = "https://movie.douban.com/top250?" data={ 'start':

1 条评论您还未登录，请先登录后发表或查看评论

Python 爬取豆瓣读书

08-18

python 版本 3.6 入门级爬虫，爬取豆瓣读书，需要用到bs4、requests

python爬取豆瓣书籍_python 爬取豆瓣书籍信息

weixin_39796140的博客

11-27

521

继爬取猫眼电影TOP100榜单之后，再来爬一下豆瓣的书籍信息（主要是书的信息，评分及占比，评论并未爬取）。原创，转载请联系我。需求：爬取豆瓣某类型标签下的所有书籍的详细信息及评分语言：python支持库：正则、解析和搜索：re、requests、bs4、lxml （后三者需要安装）随机数：time、random步骤：三步走访问标签页面，获取该标签下的所有书籍的链接逐一访问书籍链接，爬取书籍信息...

Python爬取豆瓣图书信息

12-19

爬取指定标签List下评分8.5分以上的图书信息，包括书名、作者、评分、简介，并保存到excel，以标签分类，放到不同的sheet中。核心代码： title= book.find_element_by_xpath('.//a[1]').text #获取书名 zuozhe= book.find_element_by_xpath('.//div[1]').text.split('/',1)[0] jianjie= book.find_element_by_xpath('.//p[1]').text #获取简介 worksheet.write(i,0,fenshu); #分数写入第i行的第一列 worksheet.write(i,1,title); #书名写入第i行的第二列 worksheet.write(i,2,zuozhe); #作者写入第i行的第三列 worksheet.write(i,3,jianjie); #简介写入第i行的第四列

Python-爬虫（Scrapy爬虫框架，爬取豆瓣读书和评分）

dodamce的博客

09-29

5992

Scrapy是爬虫框架。它分为一下部分，其中引擎是核心通过pip install scrapy在终端上下载这个爬虫框架。注意：框架不能像包一样直接导入，需要生成框架结构，在这个结构上操作启动框架：首先在终端上进入到要生成项目的路径.然后输入启动框架此时项目路径下会有一个框架生成的文件夹之后生成爬虫文件命令如图：先进入爬虫spiders文件夹中，输入命令生成爬虫文件。这里以豆瓣读书为例最后使用scrapy crawl +爬虫名（book）来启动爬虫，因为在终端不方便数据查询，所以一般会使用其他方式启动。

Python爬取豆瓣看过的书

vagabond6的博客

03-20

682

直接附上python代码： #coding=utf-8 import requests from requests.exceptions import RequestException import re import json import xlwt import xlrd def get_one_page(url): headers = { 'Host':'b...

python 爬虫爬取豆瓣读书信息.zip

12-23

Python爬虫源码大放送：抓取数据，轻松搞定！想轻松抓取网站数据，却苦于技术门槛太高？别担心，这些源码将助你轻松搞定数据抓取，让你成为网络世界的“数据侠盗”。它们还具有超强的实用价值。无论你是想要分析...

python爬虫爬取豆瓣TOP250用csv文件

热门推荐

求知若饥，知行合一

05-21

1万+

最近用Python写了个豆瓣读书的爬虫玩，方便搜罗各种美美书，分享给大家实现功能： 1 可以爬下豆瓣读书标签下的所有图书 2 按评分排名依次存储 3 存储到Excel中，可方便大家筛选搜罗，比如筛选评价人数>1000的高分书籍；可依据不同的主题存储到Excel不同的Sheet 4 采用User Agent伪装为浏览器进行爬取，并加入随机延时来更好的模仿浏览器行为，避

python爬取豆瓣图书信息

人生苦短，还不用Python？

09-19

2748

爬虫目的：随着近年互联网的发展，网络上的信息飞速数量增长。在庞大的数据面前想要获得期望的信息往往如同大海捞针。通过合理的筛选，在百万甚至数亿计的数据中找到所需信息，无疑有着非常大的意义。在豆瓣网下，有很多与日常生活相关的模块网站内置的评分评价功能可以为用户提供很大选择空间，以豆瓣读书为例：其中包含六个大型模块(文学，流行，文化，生活，经管，科技)，内部细分了145个小型模块。在以...

python爬取豆瓣读书_Python用16行代码就搞定了爬取豆瓣读书页面

weixin_39627751的博客

11-30

341

点击蓝字“python教程”关注我们哟！我们一直说Python比较简单，代码体量没有别的程序那么大，对于初学者，尤其是零编程基础的初学者来说，感触没有那么明显，那么今天就让你见识一下：爬取豆瓣读书页面，Python用16行代码就搞定了!python+selenium这个很神奇的组合，或许你还不知道selenium是什么，不过没关系，我先给你百度一下：Selenium (浏览器自动化测试框架)：Se...

python爬取豆瓣读书_爬取豆瓣读书.py

weixin_39939530的博客

11-30

252

import requestsfrom fake_useragent import UserAgentfrom pyquery import PyQuery as pqimport csvimport timeimport pymongoimport random'''因为CSV模块我学的不是很好所有那个write2csv函数我就注释掉了因为运行就会出错等学了 CSV在改进下于是我直接扔进数...

Python之简单抓取豆瓣读书信息

围炉夜话

09-24

1183

最近出差学习，闲来撸一把 Python。看语法书这些，真是看完就忘，还不如来写点小程序，有实践性又有趣。我的环境是Ubuntu 17，开始之前先装几个依赖包，用于解析 html 文件。sudo apt install python-lxml,python-requests小程序实现从豆瓣读书上抓取评分8以上，且评分人数不低于800人的书籍。这里取了一个种子，是刘震云老师的《一句顶一万句》。from

python网络爬虫之四简单爬取豆瓣图书项目

weixin_30323631的博客

04-12

453

一.爬虫项目一：豆瓣图书网站图书的爬取： import requests import re content = requests.get("https://book.douban.com/").text #注：此时我们打印输出结果，可以看到输出我们的网页字符串： # print(content) #然后我们编辑匹配豆瓣图书网站抓取图书所用到的正则表达式。 p...

这个用Python写的开源爬虫网站让你秒搜所有豆瓣好书（附零基础学习资料）

Java癫疯的博客

10-28

629

这个用Python写的开源爬虫网站让你秒搜所有豆瓣好书（附零基础学习资料）

python爬取豆瓣书籍_Python 爬取豆瓣读书标签下的书籍

weixin_39869693的博客

11-27

633

这几天想爬下豆瓣读书时发现 github 上他人分享的源码都有一定年份了，豆瓣读书的页面貌似也稍微改了，于是就在前人轮子的基础上改进一下重新爬下豆瓣读书。Python 版本是 3.7。1.爬取信息简单的思路还是用 urllib 的 request 模块抓取豆瓣读书页面 URL 内容，然后用 bs4 解析页面，最后用 openpyxl 处理保存到 excel 文件中（eazy）。首先分析下豆瓣读书页...

python爬虫——获取豆瓣评分图书

lumo的二次学习笔记

08-23

1601

通过python爬虫来获取豆瓣评分靠前的图书并下载图书封面。

python爬虫爬取豆瓣读书

09-23

Python爬虫可以用于爬取豆瓣读书的数据。以下是爬取豆瓣读书的一般步骤： 1. 首先，打开终端并进入爬虫项目的文件夹。 2. 在终端中输入命令 `scrapy genspider 爬虫文件名称爬取网页的链接` 来生成爬虫文件，例如 `...