pytho爬虫使用bs4 解析页面和提取数据

东木月

于 2018-07-06 19:42:10 发布

阅读量3.3k

点赞数

CC 4.0 BY-SA版权

分类专栏：爬虫

本文链接：https://blog.youkuaiyun.com/lm_is_dc/article/details/80945542

21 篇文章 ¥9.90 ¥99.00

订阅专栏

本文介绍了使用Beautiful Soup 4.2.0进行网页解析和数据提取的方法，包括导入模块、获取节点、通过find()、find_all()及select()查找节点。此外，还强调了非结构化数据和结构化数据处理的区别，并提到了Beautiful Soup相对于lxml的性能特点。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

关注公众号“轻松学编程”了解更多。
一般来讲对我们而言，需要抓取的是某个网站或者某个应用的内容，提取有用的价值。内容一般分为两部分，非结构化的数据和结构化的数据。

文本、电话号码、邮箱地址
用:正则表达式
html文件
用:正则表达式 / xpath/css选择器/bs4

json文件
用:jsonPath / 转化成Python类型进行操作（json类）
xml文件
用:转化成Python类型（xmltodict） / XPath

了解本专栏