python 爬虫获取书籍名字

最新推荐文章于 2022-11-22 22:07:22 发布

原创最新推荐文章于 2022-11-22 22:07:22 发布 · 817 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫

本文介绍了一种改进的爬虫技术，用于从豆瓣网站抓取50页书籍信息，解决了因部分书籍副标题缺失而导致的数据错误问题，并分享了爬虫过程中的一些实用技巧。

爬取豆瓣50页书籍的名字

代码如下（这是第一次写的代码，出现了一些问题）

出现爬取不到1000本就停止了

原因使用find_all 若有些书籍若副标题不存在，则会将其他书籍的副标题加在上一本的书籍

解决方法：使用find一个一个检查是否存在副标题副标题在span标签里用if语句判断

积累：

1.准确访问标签内的属性可以使用get(“属性值”）获得

如图获取a标签中指定的title属性

2.获取span标签中包含的内容先用find_all查找上一级标签中包含的span标签，再用for循坏遍历get_text(）提取文本内容

3.在终端去除None值加入判断语句若爬虫的值为Null则不打印

4.range（）函数的使用方法 range(起始值，结束值，每次增加的值）若结束值为11，则只到了10

改进的代码如下：

运行效果：

积累：

1.用for循环遍历打印出来的结果是一个标签一个标签打印的

此时可以用 if语句检验是否存在某标签如下：

If bs.find_all(‘a’).find(‘span’) is not None:

.......

Else:

.......

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

进击的章鱼哥

关注关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

图书数据采集：使用Python爬虫获取书籍详细信息

数据知道的博客

02-28

7853

本文详细介绍了使用Python编写爬虫，从图书网站获取书籍详细信息的方法，包括书名、作者、评分、评论等。通过合理使用爬虫技术，可以高效地获取大量有价值的图书数据，为数据分析、应用开发等提供支持。然而，在进行爬虫操作时，务必遵守相关法律法规和道德规范，确保合法合规。

2201_76125261的博客

12-02

917

通过本文的介绍，我们学习了如何使用Python爬虫抓取书籍平台上的评论、评分和推荐数据。我们使用了requestsSelenium等工具，结合pandas进行数据存储与处理，最后用matplotlib进行了数据可视化。未来，您可以扩展爬虫功能，抓取更多书籍平台的数据，或者结合机器学习技术构建个性化的书籍推荐系统。

参与评论您还未登录，请先登录后发表或查看评论

Python爬虫-专业数据库书名爬取

qq_39011567的博客

09-28

1880

Python爬取小说

zhangweiguo_717的博客

09-21

7813

Python爬取小说生成txt文档

python爬取豆瓣图书

creater_X

04-10

2668

最近突然想学下爬虫爬取一下豆瓣的图书，按类别来爬取并分别存储，然后就用正则写了一份初级爬虫。 # -*- coding:utf-8 -*- import urllib2 import re import sys tags = [u'小说', u'散文', u'历史', u'爱情', u'管理', u'编程', u'生活', u'心理'] haveBooked = set() class B

python爬取网页书籍名称代码_python爬取亚马逊书籍信息代码分享

weixin_39998998的博客

12-04

321

我有个需求就是抓取一些简单的书籍信息存储到mysql数据库，例如，封面图片，书名，类型，作者，简历，出版社，语种。我比较之后，决定在亚马逊来实现我的需求。我分析网站后发现，亚马逊有个高级搜索的功能，我就通过该搜索结果来获取书籍的详情URL。由于亚马逊的高级搜索是用get方法的，所以通过分析，搜索结果的URL，可得到node参数是代表书籍类型的。field-binding_bro...

python爬虫爬取学校图书馆网书名

看那白熊

10-30

1810

python爬虫一步步实现爬取图书馆网图书借阅信息

基于Python爬虫的书籍数据可视化分析.pdf

03-09

通过上述知识点，可以系统地了解基于Python爬虫的书籍数据可视化分析的过程和技术要点。这些知识在数据抓取、处理和展示中有着广泛的应用。在实际开发中，还需要考虑到法律和道德问题，确保爬虫行为不违反相关网站的...

Python爬虫实战案例教程.pdf

09-19

以一个电子书的网站为例来实现python爬虫获取电子书资源。爬取整站的电子书资源，按目录保存到本地，并形成索引文件方便查找。爬取的目标网站：苦瓜书盘步骤：爬取->分析、解析->保存对于一个不需要登录验证的...

Python爬虫开发从入门到实战配套源代码_包含爬虫基础教程与实战案例的完整项目代码_用于学习Python爬虫开发技术_涵盖Requests_BeautifulSoup_Scrap.zip

最新发布

08-04

Python爬取豆瓣图书信息

12-19

爬取指定标签List下评分8.5分以上的图书信息，包括书名、作者、评分、简介，并保存到excel，以标签分类，放到不同的sheet中。核心代码： title= book.find_element_by_xpath('.//a[1]').text #获取书名 zuozhe= book.find_element_by_xpath('.//div[1]').text.split('/',1)[0] jianjie= book.find_element_by_xpath('.//p[1]').text #获取简介 worksheet.write(i,0,fenshu); #分数写入第i行的第一列 worksheet.write(i,1,title); #书名写入第i行的第二列 worksheet.write(i,2,zuozhe); #作者写入第i行的第三列 worksheet.write(i,3,jianjie); #简介写入第i行的第四列

python爬取小说名_python笔记--爬取小说作者和书名

weixin_42394206的博客

02-21

1053

importrequestsfromlxmlimportetreeimportopenpyxlurl='https://www.qidian.com/rank/yuepiao'headers=｛'user-agent':'Mozilla/5.0(sNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chro...

爬取豆瓣读书-用户所有阅读书籍名称、日期和书籍链接（Python爬虫实战）

shaomingmin的博客

05-09

1199

获取用户的所有阅读的书籍、日期和链接，是对豆瓣用户画像刻画的基础，本文介绍如何利用BeautifulSoup框架对豆瓣读书用户阅读信息进行抓取。 import requests from bs4 import BeautifulSoup import re headers = { "Host": "book.douban.com", "Referer":"https://www.douban.com/people/fayolee/collect", 'User-Agent': 'M

Python爬虫之获取小说

qq_38068435的博客

01-20

1441

学这个之前请确保自己对http协议和html有些了解（不用全都会）爬虫是什么？爬虫就是模拟浏览器去访问链接，来帮助我们获取想要的数据，可见即可爬（爬不到就是技术不够）浏览器是怎样访问网页的呢？浏览器会向一个网站发起一个请求，网站再作出响应，返回数据给浏览器，返回的数据就包含我们想要的东西。进入正文！就拿起点中文网为例，推荐使用Chrome浏览器，因为火狐一次次让我失望。 ...

python爬取图书信息

搬砖的小白

08-11

6706

1、观察分析要爬取的图书网站页面，举例：https://www.bookresource.net/ （随便选的）通过选择图书分类、翻页，发现 pdf-1/list-1 的数字分别表示不同的图书类别与页码 2、单页分析，用BeautifulSoup库解析网页，提取关键信息构造结构化数据 3、可将数据存入数据库或写入本地文档，本文写入excel 代码： # -*- coding=utf-8 -*- import requests from bs4 import BeautifulSoup..

通过Python爬虫技术获取小说信息

毕业作品网站

06-17

4755

使用Python爬虫技术获取小说信息，包括小说名称、小说作者以及小说简介等作品信息！在实验中掌握Python的第三方库requests和lxml实验结果：通过编写代码，并合理解析页面以及多次调试解决爬虫过程中出现的问题，代码运行成功，获取到了第一页的10本小说的作者名、小说简介以及小说名称！运行截图如下：得到的txt文件截图：实验分析：本次实验通过编写爬虫代码，从网页中之间抓取信息，保存到本地文件中！较好的达到了实验前的需求！Python爬虫技术能大大方便人们的生活，很多手工操作需要大量时间，但是通过编写p

20行Python代码，轻轻松松获取各路书本，你还在花钱买着看嘛~

m0_72282564的博客

11-22

5646

嗨喽，大家好呀~这里是爱看美女的茜茜呐又到了学Python时刻~作为现代青年，我相信应该没几个没看过xiao shuo的吧，嘿嘿~一般来说咱们书荒的时候怎么办？自然是去寻一个网站先找到xiao shuo名字，然后再找度娘一搜（PS：太贵惹，买章节不适合我这种穷人）哎，一下就出来答案了，免费看，美滋滋~但是那多麻烦，咱们用 python 直接全部下载下来慢慢看不就好了~小孩子才做选择，成年人选择都要…源码、资料点击蓝色字体自取，我都放在这里了。

Python 爬虫书籍爬取实例

beichuanshangren的博客

08-17

2511

Python 爬虫笔趣阁整书爬取实例

YOLOV2 _keras代码详解

qq_35732321的博客

08-26

1213

YOLOv2代码详解

用python爬虫获取

07-05

编写一个使用 Python 获取网页数据的爬虫程序通常包括以下几个关键步骤：环境搭建、发送请求、解析页面内容、数据存储和反爬策略处理。以下是详细的说明和示例代码： ### 环境搭建在开始之前，需要安装必要的库。最常用的库包括 `requests` 用于发送 HTTP 请求，`BeautifulSoup` 用于解析 HTML 内容，以及 `pandas` 用于数据存储。 ```bash pip install requests beautifulsoup4 pandas openpyxl ``` ### 发送 HTTP 请求使用 `requests` 库向目标网站发送 GET 请求，并获取网页内容。 ```python import requests url = 'https://example.com' response = requests.get(url) # 检查请求是否成功 if response.status_code == 200: html_content = response.text else: print(f"Failed to retrieve the page. Status code: {response.status_code}") ``` ### 解析 HTML 内容使用 `BeautifulSoup` 解析 HTML 文档并提取所需的数据。例如，提取所有链接或特定标签的内容。 ```python from bs4 import BeautifulSoup soup = BeautifulSoup(html_content, 'html.parser') # 提取所有链接 for link in soup.find_all('a'): print(link.get('href')) # 提取特定标题文本 title_tag = soup.find('h1') if title_tag: print(title_tag.get_text()) ``` ### 数据存储将提取的数据保存到 Excel 文件中。可以使用 `pandas` 来简化这一过程。 ```python import pandas as pd # 假设我们提取了书名和作者信息 data = { 'Book Title': ['Title 1', 'Title 2'], 'Author': ['Author 1', 'Author 2'] } df = pd.DataFrame(data) df.to_excel('books.xlsx', index=False) ``` ### 处理分页与反爬机制许多网站会限制频繁访问以防止爬虫行为。为了应对这种情况，可以采取以下措施： - **随机延迟**：每次请求之间添加随机等待时间。 - **代理 IP**：使用不同的 IP 地址进行请求，避免被封禁。 - **User-Agent 切换**：模拟不同浏览器的 User-Agent 字符串。 ```python import time import random headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36' } proxies = { 'http': 'http://10.10.1.10:3128', 'https': 'http://10.10.1.10:1080' } for i in range(1, 6): # 假设有5页数据 url = f'https://example.com/page={i}' response = requests.get(url, headers=headers, proxies=proxies) if response.status_code == 200: # 处理页面内容... pass # 添加随机延迟（1~3秒） time.sleep(random.uniform(1, 3)) ``` ### 完整示例：从网页抓取书籍信息并保存至 Excel 下面是一个完整的例子，演示如何从图书网站抓取书籍名称和作者，并将其保存到 Excel 文件中。 ```python import requests from bs4 import BeautifulSoup import pandas as pd import time import random def fetch_books(page_url): headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36' } response = requests.get(page_url, headers=headers) if response.status_code != 200: print(f"Error fetching {page_url}: {response.status_code}") return [] soup = BeautifulSoup(response.text, 'html.parser') books = [] # 假设每本书的信息在一个 class 为 'book' 的 div 中 for book in soup.find_all('div', class_='book'): title = book.find('h2').get_text(strip=True) author = book.find('p', class_='author').get_text(strip=True) books.append({'Book Title': title, 'Author': author}) return books all_books = [] base_url = 'https://example-books-site.com/page/' for i in range(1, 6): # 抓取前5页 page_url = base_url + str(i) all_books.extend(fetch_books(page_url)) time.sleep(random.uniform(1, 2)) # 防止太快导致被封锁 # 存储到 Excel df = pd.DataFrame(all_books) df.to_excel('scraped_books.xlsx', index=False) ``` 通过以上步骤，就可以创建一个基本但功能齐全的 Python 网络爬虫来获取网页上的数据[^1]。这种方法适用于大多数静态网站；对于动态加载的内容，则可能需要考虑使用如 Selenium 或 Scrapy 等更高级的技术[^2]。 ---