此findall()非彼findAll()

最新推荐文章于 2024-04-28 01:54:32 发布

原创最新推荐文章于 2024-04-28 01:54:32 发布 · 215 阅读

0 ·

CC 4.0 BY-SA版权

python 专栏收录该内容

3 篇文章

订阅专栏

本文介绍了如何使用BeautifulSoup的findAll()函数和正则表达式的findall()函数进行网页内容抓取。通过实例展示了在<class'bs4.BeautifulSoup'>类型对象中根据标签查找内容的方法，并对比了字符串查找的差异。

在学beautifulsoup时候遇到findAll()函数。起初以为它和findall()是一样的，后来发现“腰”粗了，果然就不是同一个人了啊。他们两个最根本的区别在于：

		findAl()l在<class 'bs4.BeautifulSoup'>类型的对象里根据标签查找。				   
		而findall()在string里面查找。

findAll（）

from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
html=urlopen("http://www.pythonscraping.com/pages/warandpeace.html") #打开url并将内容存入变量名html里
print(type(html))
bsObj=BeautifulSoup(html)
nameList=bsObj.findAll("span",{"class","green"})#寻找标签是span，其value是‘class=green’的内容
for name in nameList:
    print(name.get_text())

bsObj=BeautifulSoup(html)这一步十分重要，有了这一步才能使用接下来的findAll。

findall()

和compile结合：

>>> import re
>>> s="adfad asdfasdf asdfas asdfawef asd adsfas"
>>> reObj1 = re.compile('((\w+)\s+\w+)')
>>> reObj1.findall(s)
[('adfad asdfasdf', 'adfad'), ('asdfas asdfawef', 'asdfas'), ('asd adsfas', 'asd')]

reObj1是pattern，而s是string。

正规用法：pattern和string都在括号内

>>> bsObj="spanno yes sp hu span"
>>> re.findall("span", bsObj)
['span', 'span']

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

NPLbald

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

用Python做垃圾分类

Python专栏

07-02

7989

目录0 引言1 环境2 需求分析3 代码实现4 后记0 引言纸巾再湿也是干垃圾？瓜子皮再干也是湿垃圾？？最近大家都被垃圾分类折磨的不行，傻傻的你是否拎得清？

震惊！垃圾分类居然能用Python搞定!

Python专栏

07-02

3998

目录 0 引言 1 环境 2 需求分析 3 代码实现 4 后记 0 引言纸巾再湿也是干垃圾？瓜子皮再干也是湿垃圾？？最近大家都被垃圾分类折磨的不行，傻傻的你是否拎得清？

参与评论您还未登录，请先登录后发表或查看评论

初识python爬虫 Python网络数据采集1.0 BeautifulSoup通过网站css爬取信息

DAIANNA97

07-02

700

*文章说明这个学习资料是Ryan Mitchel的著作<Web Scraping with Python: Collecting Data from the Modern Web>我算是一步一步跟着一起去学习。分享自及遇到的问题。总结*环境说明我使用的是python3.5+python2.7共存。网络爬虫可以通过 class 属性的值，轻松地区分出两种不同的标签。例如，它们可以用Bea...

BeautifulSoup库findAll()、find()方法详解

weixin_34354173的博客

02-09

3554

find()和findAll()官方定义如下： findAll(tag, attributes, recursive, text, limit, keywords) find(tag, attributes, recursive, text, keywords) 95%的时间只用前2个参数：tag，attributes。 tag可以传一个标签的名称或多个标签名称组成的 Python列表做标签参数。...

正则表达式findall查html,python正则表达式findall<span>

weixin_39846089的博客

06-02

360

您的原始代码按原样工作。不过，您应该使用HTML解析器。在import rep = re.compile('(.*?)\', re.IGNORECASE)z = 'foo'text = re.findall(p, z)print text输出：^{pr2}$编辑正如蒂姆指出的，应该使用re.DOTALL，否则下面的方法将失败：import rep = re.compile('(.*?)\', re...

python爬虫（1.find和findAll函数提取文本）

dawen1937的博客

12-29

2万+

from urllib.request import urlopen from bs4 import BeautifulSoup html = urlopen("http://www.pythonscraping.com/pages/warandpeace.html") bsObj = BeautifulSoup(html) #根据css样式表查找 nameList = bsObj.findAll(

PAT——Find Coins（注意超时问题）

ljhsq的博客

07-31

158

Find Coins题目AC代码注意题目 Eva loves to collect coins from all over the universe, including some other planets like Mars. One day she visited a universal shopping mall which could accept all kinds of coins as payments. However, there was a special requirement o

YumRepo Error: All mirror URLs are not using ftp

weixin_50910213的博客

02-08

375

问题： YumRepo Error: All mirror URLs are not using ftp, http[s] or file. Eg. Invalid release/repo/arch combination/ removing mirrorlist with no valid mirrors: /var/cache/yum/x86_64/6/base/mirrorlist.txt 错误：Cannot find a valid baseurl for repo: base 原因： cento

beaver彼_如何使用Beaver Builder创建自定义WordPress布局

cumohuo9136的博客

09-03

780

beaver彼Do you want to learn how to create custom page layouts in WordPress? Beaver Builder allows you to create your own page layouts without writing any code. In this article, we will review Beaver B...

这一年，这些书：2021年读书笔记

Heartsuit的博客

12-31

2万+

Note: 以下 markdown 格式文本由 json2md 自动转换生成，可参考JSON转Markdown：我把阅读数据从MongoDB中导出转换为.md了了解具体的转换过程。红玫瑰与白玫瑰:张爱玲全集02 作者：张爱玲[中] ISBN：9787530218617 出版社：北京十月文艺出版社出版日期：2019-02-28 图书标签：张爱玲,短篇小说,文学,红玫瑰与白玫瑰,小说豆瓣地址： https://book.douban.com/subject/30294358/ 阅读日期：2021-01

探讨UnsupportedOperationException的原因及解决方案

热门推荐

一亩三分地

07-02

9万+

最近工作中老给同事挖坑，真是愧疚。上周五写了个接口给同事用，结果同事用的时候告诉我报错，我一看，是UnsupportedOperationException，有点懵，没明白这是为啥。当时只是在网上找解决方法，没有细究错误出现的原因，今天有时间把这个整明白，记录于此。1、示例代码及错误信息下面是我工作时写的错误代码的简化版：import java.util.ArrayList; import j

mysql刷题（不定时更新）

vinter_he

03-24

1万+

面试阶段大家基本都会问一些mysql的题，具体的高深理论以后再慢慢补充，但是刷题是不可避免的，下面直接上货创建/删除表和索引系列创建表 CREATE TABLE if not exists `test_date` ( `id` int(11) NOT NULL AUTO_INCREMENT, `date` date DEFAULT NULL, `temp` int(11) N...

python爬虫03 - 正则表达式 re模块

LonelyDragons的博客

08-18

1240

1.正则表达式的简介操作练习的话可以用 jupyter IDLE 或者是cmd ipython 都行 1.1 概念正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑 1.2 正则表达式的应用场景 • 表单验证(例如 : 手机号、邮箱、身份证… ) • 爬虫 2. 正则表达式对Python的支持 2.1 普通字符字母、数字、汉字、下划线、以及没有特殊定义的符号，都是"普通字符"。正

nnUNet-v2 官方调用教程（节选关键内容）_nnunetv2(2)

tencentes的博客

04-28

911

the likes!

基于C#与MySQL的高分课程设计：人事工资管理系统完整源码与数据库

12-05

本资源提供了一套采用C#编程语言结合MySQL数据库技术构建的企业人力资源与薪酬管理软件解决方案。该方案包含完整的程序源代码及配套的结构化数据存储文件，专为满足高等院校计算机相关专业课程设计或毕业设计的高标准要求而准备，其设计目标旨在获得不低于九十五分的优异评价。整套材料经过系统化整合与严格测试，确保了各功能模块的完整性与可执行性。用户获取后无需进行额外的环境配置或代码调整，即可直接部署并启动运行。系统架构严谨，实现了对企业员工信息档案、考勤记录、绩效评估及薪资核算等核心业务流程的数字化管理，显著提升了相关事务的处理效率与准确性。该软件工程实践案例不仅展示了C#在Windows桌面应用开发中的实际应用，也体现了MySQL在中小型数据管理场景下的稳定表现，适合作为学习现代软件开发流程与数据库设计原理的参考范例。资源来源于网络分享，仅用于学习交流使用，请勿用于商业，如有侵权请联系我删除！

产品碳足迹软件，全球前10强生产商排名及市场份额（by QYResearch）.pdf

12-05

产品碳足迹软件，全球前10强生产商排名及市场份额（by QYResearch）.pdf

深入浅出Core Data开发

12-05

本书系统讲解了Core Data在iOS开发中的应用，涵盖数据建模、增删改查、迁移与版本控制等核心技术。通过构建真实项目，读者可掌握高效数据管理的最佳实践，理解NSManagedObject、NSFetchRequest及NSFetchedResultsController等关键类的工作机制。书中还融合了iCloud同步、多设备通信与高级UI设计，帮助开发者打造高性能、易维护的移动应用。适合具备基础iOS知识的进阶开发者阅读。

Rails测试实战指南

12-05

本书系统讲解Rails应用中的自动化测试实践，涵盖单元测试、功能测试、集成测试与验收测试。通过真实案例深入探讨Test::Unit、Shoulda、RSpec、Cucumber等主流测试框架的使用技巧，并介绍测试数据管理、模拟对象、覆盖率分析及遗留系统测试等关键主题。强调测试驱动开发（TDD）在提升代码质量与开发效率中的核心作用，帮助开发者构建健壮、可维护的Rails应用。

基于C++与Qt的消消乐游戏可视化系统设计与实现（附完整源码）

最新发布

12-05

本资源提供一款采用C++编程语言并结合Qt图形界面框架实现的消除类益智游戏完整开发方案，包含全部可执行程序与源代码。该方案特别适用于高等院校计算机相关专业的毕业设计、课程实践或软件开发项目等教学与科研场景。项目代码结构清晰、注释详尽，且已通过系统化功能验证与稳定性测试，具备较高的可靠性与可复用性。使用者可基于现有代码框架进行功能扩展、算法优化或界面定制等二次开发，为学习面向对象程序设计、图形界面开发及游戏设计原理提供实践参考。资源来源于网络分享，仅用于学习交流使用，请勿用于商业，如有侵权请联系我删除！

findall

03-14

### Python `re.findall` 使用方法 Python 中的正则表达式模块 `re` 提供了一个非常强大的函数 `findall`，用于匹配字符串中的所有子串并返回它们作为列表。以下是其基本语法： #### 基本语法 ```python re.findall(pattern, string, flags=0) ``` - **pattern**: 要匹配的正则表达式模式。 - **string**: 需要被搜索的目标字符串。 - **flags** (可选): 修改正则行为的标志位。该函数会扫描整个目标字符串，并返回所有不重叠的匹配项组成的列表[^1]。 --- #### 示例代码以下是一些常见的使用场景及其对应的代码示例： ##### 示例 1: 查找所有的单词如果希望找到字符串中所有的字母序列（即单词），可以这样实现： ```python import re text = "Hello world! This is a test." result = re.findall(r'\b\w+\b', text) print(result) # 输出 ['Hello', 'world', 'This', 'is', 'a', 'test'] ``` 这里 `\b` 表示单词边界，`\w+` 匹配一个或多个字母、数字或下划线字符。 --- ##### 示例 2: 查找特定长度的数字假设需要提取一段文本中所有由三位数构成的数字： ```python import re text = "The numbers are 123 and 456789 but not 12" result = re.findall(r'\b\d{3}\b', text) print(result) # 输出 ['123'] ``` 这里的 `\d{3}` 表示恰好三个连续的数字。 --- ##### 示例 3: 处理大小写敏感性默认情况下，`findall` 是区分大小写的。可以通过传递参数 `re.IGNORECASE` 来忽略大小写差异： ```python import re text = "Find apple, Apple, and APPLE!" result = re.findall('apple', text, re.IGNORECASE) print(result) # 输出 ['apple', 'Apple', 'APPLE'] ``` --- ##### 示例 4: 结合分组捕获括号 `( )` 当正则表达式中有捕获组时，`findall` 只会返回捕获的内容而非完整的匹配结果： ```python import re text = "Name: John Doe Age: 30 Name: Jane Smith Age: 25" result = re.findall(r'Name:\s*(.*?)\s*Age:', text) print(result) # 输出 ['John Doe', 'Jane Smith'] ``` 上述例子中，`(.*?)` 定义了一组非贪婪匹配来获取名字部分。 --- ### 注意事项 1. 如果没有找到任何匹配项，则返回空列表[]。 2. 对于复杂的正则需求，建议先测试正则表达式的准确性再应用于实际数据处理[^2]。 ---