BeautifulSoup爬取指定类div标签下的网址href

最新推荐文章于 2024-07-05 08:36:01 发布

Mr雪候鸟

最新推荐文章于 2024-07-05 08:36:01 发布

阅读量7.8k

点赞数 11

分类专栏： BeautifulSoup 文章标签： python

本文链接：https://blog.youkuaiyun.com/qq_42656043/article/details/111568979

版权

BeautifulSoup 专栏收录该内容

3 篇文章

订阅专栏

测试案例：
在这里插入图片描述
1.select方法

    for item in soup.select('div[class="f-l intern-detail__job"] p a'):
        detail_url = item.get('href')
        print(detail_url)

2.find_all 方法

	for items in soup.find_all('div',class_='f-l intern-detail__job'):
    	item = items.select('p a')[0]
    	detail_url = item.get('href')
    	print(detail_url)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Mr雪候鸟

关注关注

11
点赞
踩
18

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

[Python从零到壹] 六.网络爬虫之BeautifulSoup爬取作者个人博客网站详解

杨秀璋的专栏

02-17

1万+

前一篇文章讲述了BeautifulSoup技术，它是一个可以从HTML或XML文件中提取数据的Python库，一个分析HTML或XML文件的解析器，包括安装过程和基础语法。这篇文章将详细讲解 BeautifulSoup 爬取作者个人博客网站，通过案例的方式让大家熟悉Python网络爬虫，同时作者博客网站也是非常适合入门的案例，也能普及简单的预处理知识。希望对您有所帮助

Python爬虫实战：如何使用 requests 和 BeautifulSoup 爬取新浪新闻首页标题和链接

最新发布

2201_76125261的博客

03-08

1114

本文详细介绍了如何使用 Python 爬取新浪新闻首页的新闻标题和链接，并展示了如何使用requests和完成网页数据的获取与解析。我们还介绍了如何处理新浪网站的反爬虫机制，通过设置请求头、随机延迟和使用代理 IP 来避免被封禁。

1 条评论您还未登录，请先登录后发表或查看评论

用BeautifulSoup爬取指定类div标签下的网址href

DFFFAN的博客

05-12

3380

html界面如下首先导入requests和BeautifulSoup模块 import requests from bs4 import BeautifulSoup header = {'user-agent': 'Mozilla/5.0'} #模拟浏览器,防止被禁 req = requests.get(url, headers = header) html = req.text soup = BeautifulSoup(html, 'lxml') 之前一直分不清.select()

BeautifulSoup 获取a标签的href

c_lanxiaofang的博客

05-09

6315

[href]就可以获取到a标签里面的href了。

运用BeautifulSoup抓取网页的链接

weixin_34161032的博客

10-06

248

之前一直都是做前端，不知道搜索引擎后台核心是怎样实现。今天看到bd内部的spider资料，决定运用先前学过的python模拟一把，把指定网页的a标签中的href提取出来。运用到扩展模块BeautifulSoup(http://www.crummy.com/software/BeautifulSoup/)。 BeautifulSoup的功能很强大，能方便对HTML和XML的文本处理。可以轻易捕...

beautifulsoup获取属性_beautifulsoup 获取a(tag)的属性href

weixin_39846364的博客

12-19

2707

(转) TexturePacker 3&period;0 使用教程著名的TexturePacker 已经升级到3.0了,下载地址: http://www.codeandweb.com/texturepacker 免费 license 申请地址: http://www ...大型B2B网站开发手记 2刚开始做功能的时候,发现有个“面包屑”导航的功能穿插到了...

BeautifulSoup 获取 a标签里的文本内容

无梦生7的博客

04-04

1万+

说明想要获取 a标签里的单词如下所示。代码 from bs4 import BeautifulSoup f = open("word.txt", "r") # 设置文件对象 html = f.read() # 将txt文件的所有内容读入到字符串html中 soup = BeautifulSoup(html, 'lxml') # 获取a标签里的文本内容 for item in sou...

BeautifulSoup爬取豆瓣电影top250信息

阿优乐扬的博客

07-13

9875

豆瓣是一个社区网站，创立于2005年3月6日。该网站以书影音起家，提供关于书籍，电影，音乐等作品信息，其描述和评论都是由用户提供的，是Web2.0网站中具有特色的一个网站。网址：https://movie.douban.com/top250?start=0&filter= 我将基于豆瓣电影top250讲解BeautifulSoup技术的爬虫，获取排名前250名的影片信息，包括（网站名称、...

使用BeautifulSoup爬取优快云博客文章

helloworld的专栏

12-12

843

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库 Requests is an elegant and simple HTTP library for Python, built for human beings. 通过Requests发起请求获取博客信息，然后再通过BeautifulSoup的基本应用，当然这里我们选取的是排名靠前的博客，注意如果是在内网

详解BeautifulSoup获取特定标签下内容的方法

01-19

以下是个人在学习beautifulSoup过程中的一些总结，目前我在使用爬虫数据时使用的方法的是：先用find_all()找出需要内容所在的标签，如果所需内容一个find_all()不能满足，那就用两个或者多个。接下来遍历find_all的结果，用get_txt（）、get(‘href’)、得到文本或者链接，然后放入各自的列表中。这样做有一个缺点就是txt的数据是一个单独的列表，链接的数据也是一个单独的列表，一方面不能体现这些数据之间的结构性，另一方面当想要获得更多的内容时，就要创建更多的空列表。遍历所有标签： soup.find_all('a') 找出所有页面中含有标签a的html语句

python爬取div中段落_python爬虫用BeautifulSoup爬取<s>元素并写入字典，但某些div下没有这一元素，导致自动写入下一条，如何解决？...

weixin_39624097的博客

12-21

455

新手写二手车网站爬虫，爬卖价和原价，原价以删除线形式放在下。但是遇到没有标记原价，也就是并没有标签的情况下，会自动把下一个内的信息写入上一条占位。试了用if len()判断，但是毫无效果。。请问这种情况应当如何解决，把没有标签的情况正确提取出来，用“”或“nodata”显示？网页源代码如下，同时包含原价与卖价的：<p class="priType-s"><em class="ta...

BeautifulSoup查找、选择、删除标签，获取标签属性、文本等

热门推荐

yezi1993的博客

11-12

1万+

new一个对象 from bs4 import BeautifulSoup soup = BeautifulSoup(html, features="html.parser") 1. 查找 # 根据标签查找 imgs = soup.find_all("img") # 根据属性查找 imgs = soup.find_all("img", attrs={"class": "avatar"}) # 根据样式查找（支持正则） tabs = soup.find_all(style=re.compile(r'.*di

Python爬虫——BautifulSoup 常用函数的使用

万里顾一程的博客

08-05

2612

向BeautifulSoup 的select() 函数中传入CSS 选择器作为参数，就可以在 HTML 文档中检索到与之对应的内容，返回类型为列表类型。find_all() 函数（常用）：搜索当前标签的所有子节点，并判断这些节点是否符合过滤条件，将所有符合条件的结果以列表形式返回。find_all() 函数的返回结果类型是列表类型，find() 函数返回的结果是找到的第一个节点。find() 函数：搜索当前标签的所有子节点，返回一个符合过滤条件的结果。text：标签的文本内容去匹配，而不是标签的属性。...

python爬虫使用beautifulsoup解析网址以及常见的beautifulsoup用法

weixin_55579895的博客

09-23

563

常见的beautifulsoup用法 find() find_all() select() 可以传送的参数和在其中使用的方法：标签，正则表达式，属性 from typing import Container from bs4 import BeautifulSoup import re html_str = ''' <div> <ul> <li class="item-1" id='link11'><a href="link1

Python中bs4的soup.find()和soup.find_all()用法

weixin_51789297的博客

01-28

9664

我们在使用python对网页爬虫的时候，经常会得到一些html数据，因此我们就会利用soup.find()和soup.find_all()方法来筛选出想要的数据。

BeautifulSoup的基本使用

m0_60635321的博客

04-11

1137

ython工程师，想要提升技能，往往是自己摸索成长或者是报班学习，但对于培训机构动则几千的学费，着实压力不小。自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！**

网络爬虫之BeautifulSoup参数详解

载_酒i

07-05

1778

本文详细介绍了 BeautifulSoup 的初始化方法、解析器选择、常用参数和属性以及常用方法。通过这些知识，你可以更加高效地进行网页解析和数据提取。希望本文对你有所帮助，如果你有任何问题或建议，欢迎留言讨论。BeautifulSoup 官方文档通过阅读本文，你应该能够更加自信地使用 BeautifulSoup 进行网页数据的抓取和解析。

Python爬虫之（八）数据提取-Beautiful Soup

SunnyRivers

01-13

1996

Beautiful Soup的简介 Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序 Beautiful Soup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。你不需要考虑编码方式，除非文档没有指定一个编码方式，...

BeautifulSoup爬取

12-12

BeautifulSoup是一个用于解析HTML和XML文档的Python库，常用于网络爬虫开发。它提供了一些简单的接口来提取和操作网页数据。以下是BeautifulSoup的一些主要特点和用法： 1. 安装：首先需要安装BeautifulSoup库，可以使用pip命令： ``` pip install beautifulsoup4 ``` 2. 解析HTML文档： ```python from bs4 import BeautifulSoup html_doc = "<html><head><title>Test Page</title></head><body><p>Hello, world!</p></body></html>" soup = BeautifulSoup(html_doc, 'html.parser') ``` 3. 提取数据： ```python # 获取标题 title = soup.title.string print(title) # 获取所有段落 paragraphs = soup.find_all('p') for p in paragraphs: print(p.text) ``` 4. 查找元素： ```python # 通过标签名查找 divs = soup.find_all('div') # 通过id查找 elem = soup.find(id='element-id') # 通过类名查找 elems = soup.find_all(class_='class-name') ``` 5. 导航文档树： ```python # 获取父节点 parent = elem.parent # 获取子节点 children = elem.children # 获取兄弟节点 siblings = elem.next_siblings ``` 6. 修改文档： ```python # 修改文本 elem.string = "New Text" # 添加新标签 new_tag = soup.new_tag('a', href='https://example.com') elem.append(new_tag) # 删除标签 elem.decompose() ``` BeautifulSoup的优势在于它能够处理不规范或复杂的HTML文档，并且提供了简单易用的API，使得数据提取变得更加直观和高效。然而，对于大型网站或需要频繁访问的网页，建议结合使用requests库进行HTTP请求，并考虑使用更高效的解析器如lxml，以提升性能。