Python 利用爬虫爬取网页内容（div节点的疑惑）

Python爬虫解析HTML获取div节点内容

最新推荐文章于 2024-05-02 17:43:47 发布

原创

最新推荐文章于 2024-05-02 17:43:47 发布 · 6.1k 阅读

2 ·

CC 4.0 BY-SA版权

本文讲述了在Python中使用BeautifulSoup爬取网页内容时遇到的div节点解析问题。作者分享了如何正确选择class_属性，以及在处理字符串时正则表达式的应用，以提取评分数据并展示运行结果。

Python 利用爬虫爬取网页内容（div节点的疑惑）
最近在写爬虫的时候发现利用beautifulsoup解析网页html

利用解析结果片段为：

死侍2 / DP2

2018-05-18(美国) / 瑞恩·雷诺兹 / 乔什·布洛林 / 莫蕾娜·巴卡林 / 朱利安·迪尼森 / 莎姬·贝兹 / T·J·米勒 / 莱斯利·格塞斯 / 卡兰·索尼 / 布里安娜·希德布兰德 / 杰克·凯西 / 埃迪·马森 / 忽那汐里 / 斯蒂芬·卡皮契奇 / 兰德尔·瑞德...

7.5 (94247人评价)

我要抓取的是评分，也就是上文中：7.5

利用find_all('节点‘，class_=‘目标class’)

在之前抓取的时候，经常将“”这个符号也写入目标class中，并且认为要加入转义符号r‘’以去消除转义

但经常返回的是空字符串

之后看到了其他博客后发现，不用加入“”也可以（若是加入“”后应该注意r’'的使用）

源代码为：

复制代码
import re
import requests
from bs4 import BeautifulSoup

def get_HTML(url):
header = {“User-Agent”: “Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Manner_maketh_Man

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

超强干货之---Python-数据爬取（爬虫）

房东的猫的博客

07-12

5万+

定义：深度优先搜索是一种遍历或搜索树或图的算法，从起始节点开始，一直沿着一个分支走到底，再回溯到上一个节点继续搜索下一个分支，直到遍历完所有节点。特点递归：通常用递归实现，或者使用栈来模拟递归过程。内存占用低：在有大量分支的情况下，内存占用比广度优先搜索低。适合目标较深的情况：如果目标节点距离起始节点较深，DFS能更快找到目标。适用场景需要遍历所有节点的情况，如生成树、迷宫搜索。目标节点较深，且分支较多时。在大规模数据爬取时，选择合适的存储方式取决于数据的规模、结构和访问需求。

100天精通Python（爬虫篇）——第116天：利用lxml与Xpath解析提取网页数据

热门推荐

努力让自己发光，对的人才能迎着光而来

07-03

22万+

一、爬虫提取网页数据的流程图二、lxml库 1. 下载安装 2. 解析HTML网页三、Xpath介绍 1. 选取节点 2. 谓语 3. 选取未知节点 4. 选取若干路径 5. Chrome插件 XPath Helper安装使用 6. Xpath实战..................

参与评论您还未登录，请先登录后发表或查看评论

如何使用 Python 和 BeautifulSoup 爬取网站！爬虫就该这么玩！

PythonJavaPHP的博客

11-12

530

互联网上的信息如此之多，任何人穷其一生也无法全部消化吸收。你需要的不是访问这些信息，而是一种可伸缩的方式，可以用来收集、组织和分析这些信息。你需要的是 Web 爬取。Web 爬取可以自动提取数据，并以一种让你可以轻松理解的格式显示出来。Web 爬取可以用于许多场景，但本教程将重点介绍它在金融市场中的应用。互联网上的信息如此之多，任何人穷其一生也无法全部消化吸收。你需要的不是访问这些信息，而是一...

python网页爬虫菜鸟教程_Python爬虫实践(7)-抓取菜鸟教程python学习路线-工具-站长头条...

weixin_39783771的博客

11-23

481

本期为python爬虫实践的第七节，传送门：Python爬虫实践(1)--大数据时代的数据挑战Python爬虫实践(2)--非结构化数据与爬虫Python爬虫实践(3)--了解网络爬虫背后的秘密Python爬虫实践(4)--编写第一个网络爬虫程序Python爬虫实践(5)--使用BeautifulSoup解析网页元素Python爬虫实践(6)--BeautifulSoup的基础操作经过前面6期的讲...

python爬虫学习（以爬取小说为例）

weixin_52058304的博客

10-06

1661

使用python爬取小说

Python爬虫基础：使用 Python 爬虫时经常遇到的问题合集

亮出锋芒，剑指苍穹

07-08

1万+

从开始玩爬虫到现在差不多半年多了，写了不少爬虫，爬了不少网站，在博客里也分享了不少爬虫的教程。我的教程文章中，一般会附带完整的爬虫代码，大家只要搭建好环境，便可以直接运行使用。不少读者朋友在使用爬虫遇到问题时也会跟我讨论，交流过程中我发现了一些比较共性的问题。因此文章重点放在了思路分析上，具体如何编写代码爬取数据则简单略过。造成了一些读者，基于我的代码进行修改爬取其他相似网站时束手无策。 ...

Python获取网页信息的四种方式

王樰沫

12-21

4050

获取网页信息的四种方式1. 标签法获取网页信息首先，使用BeautifulSoup库对网页进行解析，接着获取网页信息2. find_all 和 find 函数获取网页信息find_all 和 find 函数使用相同。不同的是find函数返回匹配的第一个结果，结果以标签形式展现； find_all返回匹配的所以结果，结果以列表形式展现。下面以find_all函数为例进行说明：3. css sele...

python入门011～python3爬虫爬取图片，爬取新闻网站文章并保存到数据库(1)

2401_84584628的博客

05-02

475

这里数据是抓取到了，但是太乱了，并且还有很多不是我们想要的，下面就通过遍历来提炼出我们的有效信息。分析上图我们要抓取的信息再div中的a标签和img标签里，所以我们要想的就是怎么获取到这些信息。爬取到的数据目前只做展示，等我学完Python操作数据库以后会把爬取到的数据保存到数据库。这里就要用到我们导入的BeautifulSoup4库了，这里的关键代码。上面代码获取到的allList就是我们要获取的新闻列表，抓取到的如下。这就是Python3的爬虫简单入门，是不是很简单，建议大家多敲几遍。

python入门011～python3爬虫爬取图片，爬取新闻网站文章并保存到数据库

2401_84140080的博客

04-27

887

2，爬取新闻网站新闻列表3，爬取图片4，把爬取到的数据存在本地文件夹或者数据库5，学会用pycharm的pip安装Python需要用到的扩展包一，首先看看Python是如何简单的爬取网页的。

如何用Python获取网页指定内容

liver100day的博客

11-11

5万+

如何用Python获取网页指定内容文章目录如何用Python获取网页指定内容1.抓取网页源代码2.抓取一个网页源代码中的某标签内容3.抓取多个网页子标签的内容 Python用做数据处理还是相当不错的，如果你想要做爬虫，Python是很好的选择，它有很多已经写好的类包，只要调用，即可完成很多复杂的功能。在我们开始之前，我们需要安装一些环境依赖包，打开命令行确保电脑中具有python和pip，如果没有的话则需要自行进行安装之后我们可使用pip安装必备模块 pip install requests

python如何遍历html中div,python中xpath如何获取div标签内html内容

weixin_26968079的博客

06-15

2137

python中xpath如何获取div标签内html内容发布时间：2021-05-22 11:48:51来源：亿速云阅读：56作者：小新这篇文章主要介绍python中xpath如何获取div标签内html内容，文中介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们一定要看完！源代码[webadmin@centos7csdnd4q]#162>vim/mywork/python/csd...

python爬取网页的方法总结,python爬虫获取网页数据

神经网络爱好者

08-16

3118

大家好，小编来为大家解答以下问题，python爬取网页信息代码正确爬取不到，利用python爬取简单网页数据步骤，今天让我们一起来看看吧！

python爬虫入门，轻松爬取网页上的数据(非常详细)

优快云_430422的博客

11-04

10万+

随着网络的普及和信息爆炸式增长，我们可以通过网络来获取各种各样的数据。而Python作为一门强大而灵活的编程语言，可以帮助我们快速地从HTML网页中提取数据。本文将介绍Python爬虫的入门知识，并详细讲解如何使用Python爬虫来爬取HTML网页上的数据。1.了解HTML和网页结构2.安装和导入相关依赖库3.发送http请求获取网页内容4.解析HTML网页内容5.定位内容和提取数据6.保存抓取的数据在开始编写爬虫之前，了解HTML和网页的结构是非常重要的。

Python教程：网络爬虫快速入门实战解析

Python学习Q群696455390

04-03

333

建议：请在电脑的陪同下，阅读本文。本文以实战为主，阅读过程如稍有不适，还望多加练习。网络爬虫简介网络爬虫，也叫网络蜘蛛(Web Spider)。它根据网页地址(URL)爬取网页内容，而网页地址(URL)就是我们在浏览器中输入的网站链接。比如：https://www.baidu.com/，它就是一个 URL。、在讲解爬虫内容之前，我们需要先学习一项写爬虫的必备技能：审查元素（如果...

python爬虫-提取网页内容

qq_32649321的博客

04-19

2061

想要在网页上批量提取某个链接：如想提取这个网页上所有数据的数据下载链接，想到利用爬虫方法来实现。思路：提取网页的源码—>筛选源码—>输出结果（保持文件）原理：网页源码有很多节点，源码的父节点是li,子节点有很多，我们需要的节点在a这个子节点，可以通过Beautifulsoup库筛选节点的内容，也就是我们想要的内容（上面想要的数据下载的链接）。 ...

爬虫多个div标签的爬取

藏经阁

04-19

4677

find_all() 后用 [2] 这样下标的方式获取

div区域内容抓取_使用爬虫框架Scrapy抓取网页数据（一）：概述

weixin_39682301的博客

12-28

722

记得十多年前，自己还是个高中生的时候，所谓的智能手机还完全没有普及，如果想在学校里面大量阅读电子书的话，基本上靠的就是有阅读功能的MP3或者MP4了。而电子书的来源呢？在无法随时随地接触网络的情况下，有时靠的就是笨办法：将一些小说网站上的内容一页页的粘贴复制下来。而那些动辄几百章节的网络小说，靠这样的手工操作，确实让人非常头疼。那时候是多么希望有一个工具能帮我自动完成这些吃力的手工活啊！！！好吧...

python爬取div中段落_python 3利用BeautifulSoup抓取div标签的方法示例

weixin_40005373的博客

12-21

2109

前言本文主要介绍的是关于python 3用BeautifulSoup抓取div标签的方法示例，分享出来供大家参考学习，下面来看看详细的介绍：示例代码：# -*- coding:utf-8 -*-#python 2.7#XiaoDeng#http://tieba.baidu.com/p/2460150866#标签操作from bs4 import BeautifulSoupimport urllib...

Python爬虫爬取豆瓣网页内容

最新发布

03-19

### 如何用 Python 爬虫抓取豆瓣网页内容 #### 使用 Requests 和 BeautifulSoup 进行数据采集为了实现从豆瓣网站上抓取数据的任务，可以利用 `requests` 库发送 HTTP 请求并获取目标页面的内容，再借助 `BeautifulSoup` 解析 HTML 文档提取所需的信息。以下是具体方法： 1. **安装必要的库** 需要先确保已安装所需的第三方库 `requests` 和 `bs4`（即 BeautifulSoup）。可以通过以下命令安装这些依赖项[^3]： ```bash pip install requests bs4 ``` 2. **发送 HTTP 请求** 利用 `requests.get()` 方法向目标 URL 发起 GET 请求以获取响应对象。随后调用 `.text` 属性读取返回的 HTML 页面源码。 ```python import requests url = 'https://movie.douban.com/top250' headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)'} response = requests.get(url, headers=headers) html_content = response.text ``` 3. **解析 HTML 并提取数据** 创建一个 `BeautifulSoup` 对象传入上述获得的 HTML 字符串以及指定解析器类型（推荐 lxml），之后便可按照标签名称或者 CSS 选择器定位到特定节点进而抽取其内部文字或其他属性值。 ```python from bs4 import BeautifulSoup soup = BeautifulSoup(html_content, 'lxml') movie_list = [] for item in soup.select('.item'): title = item.find('span', class_='title').get_text() rating_num = float(item.find('span', class_='rating_num').get_text()) movie_info = { 'Title': title, 'Rating': rating_num } movie_list.append(movie_info) ``` 4. **应对反爬机制** 当前许多主流站点都会采取一定措施防止被恶意爬取，比如设置访问频率限制、验证身份合法性等等。针对这种情况，在构建请求头时加入模拟浏览器行为的相关字段是非常重要的一步；另外还可以考虑引入代理 IP 或者延时操作等方式降低触发防护策略的风险。 #### 示例代码总结下面给出完整的示例脚本供参考： ```python import time from random import randint import requests from bs4 import BeautifulSoup def fetch_douban_movies(): base_url = 'https://movie.douban.com/top250?start=' all_movies = [] user_agent = ('Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_3)' 'AppleWebKit/537.36 (KHTML, like Gecko) Chrome') custom_headers = {"User-Agent": user_agent} start_index = 0 while True: current_page_url = f"{base_url}{start_index}" resp = requests.get(current_page_url, headers=custom_headers) if not resp.ok or '<div id="content">' not in resp.text: break parsed_html = BeautifulSoup(resp.content.decode(), features="html.parser") items = parsed_html.findAll("div", attrs={"class":"hd"}) titles_and_links = [(i.a.span.string.strip(), i.parent['href']) for i in items] all_movies.extend(titles_and_links) sleep_time = randint(1, 3) print(f"Sleeping {sleep_time} seconds before next request...") time.sleep(sleep_time) start_index += 25 return all_movies if __name__ == "__main__": movies_data = fetch_douban_movies() with open('./douban_top250.txt', mode='w+', encoding='utf8') as file_handler: for idx, record in enumerate(movies_data): rank = str(idx + 1).zfill(len(str(len(movies_data)))) line_to_write = "{}\t{}\n".format(rank, "\t".join(record)) file_handler.write(line_to_write) ```

Python 利用爬虫爬取网页内容 （div节点的疑惑）

Python 利用爬虫爬取网页内容（div节点的疑惑）