【Python】学习笔记 #2 —— 使用bs4爬取数据

最新推荐文章于 2023-06-17 11:27:17 发布

原创

最新推荐文章于 2023-06-17 11:27:17 发布 · 2.1k 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#python

本文介绍了Python爬虫必备库BeautifulSoup4的基础用法，包括下载安装和基本使用。通过实例展示了如何筛选HTML元素，如查找特定类名或ID的div和span标签。

bs4简介：

Step 1：下载bs4

Step 2：使用bs4包

bs4简介：

bs4全称BeautifulSoup4，是爬虫的必学技能。

BeautifulSoup4也是一个HTML / XML的解析器，主要功能也是如何解析和提取HTML / XML数据。

在此，我们学习最基本，最简单容易上手的使用bs4爬取数据。

Step 1：下载bs4

常见的方式是在windows系统上win+R调出运行，输入cmd进入控制台。

输入指令pip list可以看见目前已经安装的包

下载bs4包指令为：pip install bs4

由于下载包默认引用的地址是国外的网站，因此可能出现界面卡住，进度条过慢的情况，

一般我们手动通过引用国内镜像源，例如：

1、清华 https://mirrors.tuna.tsinghua.edu.cn/

2、中科大USTC镜像源 https://mirrors.ustc.edu.cn/ <

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

MoShyoKi

关注关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

利用bs4爬取资料信息

追光的人，总会光芒万丈

04-26

801

利用bs4爬取资料信息

使用BS4爬取个人博客内容以及整理个人博客

dodobibibi的博客

02-20

522

使用BS4爬取个人博客中的内容整理个人博客

参与评论您还未登录，请先登录后发表或查看评论

[爬虫]4.数据解析及应用之 bs4【爬取一部小说的文本】

雾狼的游戏屋

10-21

5884

解析的局部的文本内容都会在标签之间或者标签对应的属性中进行存储，列如图片在标签中，列表数据在标签中bs4数据解析的原理;1.实例化一个BeautifulSoup对象，并且将页面源码数据加载到该对象中2.通过调用BeautifulSoup对象中相关的属性或者方法进行标签定位和数据提取。

bs4进行数据爬取

jijijun的博客

11-03

1458

bs4只可以应用在python中数据解析的原理：标签定位提取标签、标签属性中存储的数据值 bs4数据解析的原理： 1、实例化一个BeautifulSoup对象，并且将页面源码数据加载到该对象中 2、通过调用BeautifulSoup对象中相关的属性或者方法进行标签定位和数据提取环境安装：以管理员的身份打开cmd pip install bs4 pip install lxml 如何实例化BeautifulSoup对象： from bs4 import BeautifulS

Bs4---在线爬取数据内容

CaiJin1217的博客

05-03

1395

1、getDatas.py 获取网页数据，并创建文件夹 #coding:utf-8 import urllib.request from bs4 import BeautifulSoup import os class GetDatas: def __init__(self): self.url='https:~~~~~~~~~~~网址~~~~~~~~~~~' ...

python爬虫学习笔记 2.9 （使用bs4得案例）

12-21

在学习笔记2.9中，我们探讨了如何使用bs4来抓取和处理网页数据。本节以腾讯社招页面为例，演示如何提取并存储职位信息。首先，我们需要导入必要的库，包括BeautifulSoup和urllib。在`tencent()`函数中，我们定义了...

python爬取大量数据报错_Python学习笔记7——爬取大规模数据

weixin_30953869的博客

12-24

822

我们在爬取数据时，往往是连续爬取上百个页面，本篇以爬取赶集网为例，爬取大规模的数据。步骤如下：爬取1级商品链接爬取2级详情信息爬取商品详情页多进程爬取数据一、爬取1级商品链接新建一个Python文件，名字命名为my_channel_extracing，用于抓取大类商品链接。以抓取赶集网http://bj.ganji.com/wu/上二手商品为例，右侧的各类商品便是我们需要抓取的大类商品。大类链接....

python爬虫异步加载_Python学习笔记4——爬取异步加载数据

weixin_39603995的博客

11-26

1201

一.什么是异步加载？在之前的学习笔记中，爬取的网页是需要手动翻页的网址，但是一些网站是通过自动加载翻页的，如knewone网页。浏览knewone的官网就能发现，当下拉到网页最下端时，网站会自动加载新的数据，这样的网站加载方法，称为异步加载。异步加载又称之为非阻塞模式，当向网页提出请求（request）时，其实网站只是返回了主要样式和部分数据，而持续加载的网页数据是由JS控制，这时新加载出的网页数...

学习笔记——bs4解析

薛定谔的猫

12-24

1371

前言：首先！先谢谢各位大佬的捧场在讲代码前，先容我先废话一句，为什么我用bs4来进行数据解析？因为可以bs4可以不用正则来解析，当然我们也可以用xpath（后面我会讲到的）。废话不多说，直接上内容！今天我们的目的就是爬它，网址如下：史书典籍_诗词名句网https://www.shicimingju.com/book/index.html 这个还是挺好爬，没有防爬，内容又多挺适合我们这种新手的！但主要的目的还是在增强大伙们的语文赏析能力 1.引入库 import requ.

使用bs4进行网络爬取

weixin_43266814的博客

06-08

269

使用bs4进行网络爬取

python3结合bs4爬取博客数据.txt

12-18

python实现，使用beautifulSoup爬取解析优快云的个人博客数据及文章相关数据。数据存储在本地的MySQL数据库

网络爬虫 - 4 bs4的使用方法与爬取案例

韩波的博客

08-10

8325

1、bs4 (1)bs4的概念: 是一个Python的第三方模块，用来解析html数据，其提供的api接口非常的人性化。 (2)安装包： pip install bs4 pip install lxml 这个是一个解析器，用来将文档生成对象 (3)如何切换: （a）指令切换， -i 源地址只针对于这一次的指令安装生效 ...

python---------bs4爬取数据的一种神器

m0_69984273的博客

06-17

4411

欢迎小可爱们前来借鉴我的gtieehttps://gitee.com/qin-laodaBeautiful Soup是python的⼀个库，最主要的功能是从⽹⻚抓取数据,BeautifulSoup安装 pip install bs4 如图: 我们来看看三种数据提取的方法本人建议还是使用xpath获取数据是比较好的,使用简单,本次介绍只是让各位知道方法有很多种,找到适合自己的就行下面我提供一个网址里面有Beautiful Soup库的多种使用方向,而我们使用bs4就是要使用其中的搜索⽂档树如图: 上面只是

Python爬虫之旅_(数据解析)_bs4

Lemon's blog

02-20

904

前言：这次来学习数据解析这方面的知识！ 0x00:了解数据解析在ONE那一篇中，就提到过聚焦爬虫(爬取页面中指定内容)，大部分的爬虫都是聚焦爬虫，但我们刚开始爬取的肯定都是整个页面的数据，如何定位到我们想要的那一部分数据，就用到了数据解析 ...

Python爬虫——bs4数据解析

lisiqi666的博客

03-29

556

【代码】爬取三国演义内容 bs4数据解析。

BS4爬取小说内容

ASCE_S的博客

01-19

889

利用Beautiful Soup4和requests库来爬取小说内容：使用bs4的CSS选择器时要根据对应网页的标签内容而定。 # *-* coding:utf-8 *-* # 爬取落霞小说网-<余庆年> from bs4 import BeautifulSoup import requests html = requests.get('https://www.luoxia.com...

python爬虫第三章：（二）bs4进行数据解析

weixin_44953928的博客

11-15

489

2、bs4进行数据解析 2.1 数据解析的原理 1.标签定位 2.提取标签、标签属性中存储的数据值 2.2、bs4数据解析的原理: 1、实例化一个BeautifulSoup对象，并且将页面源码数据加载到该对象中 2、通过调用BeautifulSoup对象中相关的属性或者方法进行标签定位和数据提取 2.3、环境安装 pip install bs4 pip install lxml 2.4、如何实例化BeautifulSoup对象: from bs4 import BeautifulSoup

Python--爬虫爬取优美图库--bs4（BeatifulSoup）入门

qq_57663276的博客

09-29

3567

Python--爬虫（爬取3）--bs4（BeatifulSoup）入门

requests+bs4爬取网页内容——以爬取网页文章信息为例

lyq_wtnl的博客

08-17

9214

一、引言目标网址：https://gary666.com/learn 爬取方式：requests+bs4 难度：易基本爬取的内容：输出：页面中所有的文章的标题、内容、作者、文章分类、时间对应上图（标题为win10python安装配置selenium 、作者是Gary、文章分类python、时间2020-7-9）选做内容：数据存储：txt、excel、数据库（mysql、sqlite等）翻页：https://gary666.com/learn?page=2，url