关于BeautifulSoup库查找

最新推荐文章于 2024-12-08 10:23:25 发布

原创最新推荐文章于 2024-12-08 10:23:25 发布 · 244 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#Python

Python 专栏收录该内容

6 篇文章

订阅专栏

每次都记不住该怎么用

留存一下

</style>
<script type="text/javascript" src="../ext/linesale.js?v=0.11817100 1538190458" ></script>
</head>

如何抓取src=“...”里面的数据？

前序格式

import requests
from bs4 import BeautifulSoup
import re

url="http://www.bjbus.com/map/index.php"
headers = { 'Accept': '*/*','Connection': 'keep-alive', 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.116 Safari/537.36'}
r=requests.get(url,headers=headers).text
r_bs=BeautifulSoup(r, "html.parser")

下面就要开始解析

方法1

for i in r_bs.find_all("script"):
    print(i.get("src"))

可以找到所有script标签下，提取属性为src的属性值

方法2

print(r_bs.find_all("script")[1].get("src"))

-->    ../ext/linesale.js?v=0.73926300 1538199432

因为find_all返回的是list类型，可以用[n]来查找具体某一个，当然，如果网页代码改变了，那就得重新写，这点儿没有正则的好

接下来需要将 ..替换成官网网址

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

dingo11

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Python：BeautifulSoup库介绍

不怕猫的耗子A

05-12

2517

1、BeautifulSoup是Python中的一个第三方库，其最主要的功能是处理HTML文档⑴查找HTML文档中的指定标签⑵获取HTML文档中指定标签的标签名、标签值、标签属性等⑶修改HTML文档中指定标签2、BeautifulSoup库将HTML文档解析为一个对象，使用该对象方法能很方便的获取HTML文档中的数据3、BeautifulSoup库也可以用来处理XML文档。

Python爬虫入门9：BeautifulSoup快速查找HTML内容

老猿Python

02-05

2274

本节介绍了BeautifulSoup查找类的主要方法，通过这些方法可以找到符合条件的html元素。本节文档老猿在BeautifulSoup官网的基础之上验证测试之后整理而成，文档结构大部分内容与官网内容，但有老猿验证之后的一些比较独特的内容。

参与评论您还未登录，请先登录后发表或查看评论

BeautifulSoup 类通过查找方法选取节点

weixin_49816293的博客

06-30

1579

上述方法包含了多个参数，每个参数接收值的类型不同，查找到的结果也会有所不同。）若值为正则表达式，则会查找名称符合正则表达式模式的所有节点。）若值为列表，则会查找名称与列表中任一元素相同的所有节点。表示待查找的属性节点，它接收一个字典，字典中的键为属性名称，值为该属。当在节点树中查找节点时，如果节点树非常大，那么。）若值为字符串，则会查找名称与字符串完全相同的所有节点。键字参数的名称作为节点的属性名称，值作为属性值。方法用于查找所有符合条件的节点，并以列表的形式返回。节点树选取节点的方法，其中比较主流。

Learn Beautiful Soup(3)——使用Beautiful Soup进行查找

热门推荐

Sugar的专栏

10-02

8万+

爬虫抓取信息

beautifulsoup查找标签

03-30

305

soup = BeautifulSoup('demo.html', 'html.parser') soup.find_all('p', attrs={'class':'button', 'color':'black'} 若要找某个属性却不知道属性值的，则可以这样写 soup.find_all('p', attrs={'class':'button', 'color':'bl...

Python爬虫笔记之BeautifulSoup查找

qq_53715621的博客

02-22

1145

文章目录前言安装解析元素遍历查找使用总结前言记录使用BeautifulSoup查找元素的常用方法。安装 pip install beautifulsoup4 解析 from bs4 import BeautifulSoup soup=BeautifulSoup(r.text,"html.parse") #print(soup.prettify()) #格式化输出元素 soup.<tag> #标签 soup.<tag>.name #标签名 soup.<tag&..

BeautifulSoup搜索文档

qq_48288251的博客

07-09

412

一、 BeautifulSoup搜索文档 1、使用find_all方法获取指定节点元素的列表对象 taglist=bs.find_all(‘元素名称’) 示例如下: from bs4 import BeautifulSoup import urllib.request def getUrlHtml(strurl): headers = { ‘User-Agent’: ‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like G

精选资源

Python中BeautifulSoup通过查找Id获取元素信息

01-21

到此这篇关于Python中BeautifulSoup通过查找Id获取元素信息的文章就介绍到这了,更多相关BeautifulSoup Id获取元素信息内容请搜索软件开发网以前的文章或继续浏览下面的相关文章希望大家以后多多支持软件开发网！...

Python使用BeautifulSoup库解析HTML基本使用教程

09-21

### Python使用BeautifulSoup库解析HTML基本使用教程 #### 概述在当今互联网时代，从网页上抓取数据成为了一项重要的技能。Python作为一种强大的编程语言，...希望本文能够帮助你更好地理解和应用BeautifulSoup库。

python爬虫入门——requests库、BeautifulSoup库和re库

GuFeng1999的博客

10-22

1946

对于大多数网页，如果它们的页面是由html代码静态生成的，那么我们可以通过访问网页的源代码，即网页对应的html文档内容，从文档中解析出我们想要的内容，然后将其摘录下来，存储在一定的数据结构中

python基础爬虫——BeautifulSoup查找元素

felldeng的博客

01-22

3741

困于下衡于虑而后作人生不能放弃今天的学习目标是：beautiful soup 查找元素总共有两个函数find_all和find find_all返回列表，find返回查找的第一个值 1.python代码——find的使用 from bs4 import BeautifulSoup # find_all or find doc = ''' <!DOCTYPE html> <html lang="en"> <head> <meta charset="UT

【爬虫】2.3 BeautifulSoup 查找文档元素

Jack

02-24

2256

BeautifulSoup 查找文档元素查找 HTML 元素获取元素的属性值获取元素包含的文本值高级查找

BeautifulSoup中的find_all()及select()查找方法

book_dw5189的博客

02-24

4672

BeautifulSoup中的find_all()及select()查找方法

BeautifulSoup爬取页面源码返回为空，数据存放在JsonString的网页

BBQpotato的博客

12-26

275

用BeautifulSoup找到页面中<script>中的JSON.stringify里的数据，并用json.loads下载为json数据格式，调用json_parse方法对数据进行处理。查看页面源码发现，数据存储在<script>中的jsonString里。直接选取data里的标签值，循环写入write表格中。main方法，在初始化时写入标题，后续可以注释掉。写入csv文件中，调用的是writerow方法。数据在页面中显示，但读取JSON返回值为空。

掌握Beautiful Soup 对象的使用方法

2301_81121233的博客

12-08

1065

BeautifulSoup`对象是该库的核心，通过解析HTML或XML文档生成，用于查找和提取数据。首先，你需要安装`BeautifulSoup`和一个解析器，比如`lxml`或`html.parser`。获取元素的属性和文本内容：可以使用Beautiful Soup对象的属性和方法来获取元素的属性和文本内容。遍历文档树：使用Beautiful Soup对象的属性和方法可以遍历文档树的各个节点。修改和删除元素：可以使用Beautiful Soup对象的属性和方法来修改和删除元素。

DOM获取各种元素操作

博客

10-18

538

获取一个元素通过 js 代码来获取页面中的标签获取到以后我们就可以操作这些标签了 geyElementById 是通过标签的id名称来获取标签的因为在一个页面中 id 是唯一的，所以获取到的就是一个元素 <div id="box"></div> <script> var box =document.getElementById('box'); console.log(box); </script

BeautifulSoup 获取 Script 标签内的 json 数据

happyJared

10-31

1万+

有时候，我们可能会遇到数据是以 JSON 字符串的形式包裹在 Script 标签中，此时使用 BeautifulSoup 仍然可以很方便的提取。假设有以下这段页面结构： <script type="application/ld+json" id="DATA_INFO"> { "user": { "isLogin": true, ...

beautifulsoup库