- 博客(2)
- 收藏
- 关注
原创 【Python】-- 爬虫及Requests、BeautifulSoup基础
爬虫,全称是网络爬虫(Web Crawler),也称为网络蜘蛛,是一种自动化程序,用于抓取网页上的信息。这些信息可以包括网页的内容、结构或其他相关资源。爬虫通过模拟用户访问网站的行为,自动化地从互联网上抓取数据,并在后续阶段对这些数据进行存储和处理。爬虫广泛应用于搜索引擎索引、数据分析、电子商务价格监控、社交媒体数据采集等领域,是大数据和人工智能应用的重要组成部分。
2024-12-17 23:19:20
1555
1
原创 【Python】-- 使用BeautifulSoup爬取豆瓣电影Top250榜单
BeautifulSoup 是一个 Python 包,功能包括解析 HTML 和 XML 文档、修复含有未闭合标签等错误的文档。这个扩展包为待解析的页面建立一棵树,以便提取其中的数据。BeautifulSoup 本身并不提供网络连接功能,它通常与像 requests 这样的HTTP库一起使用,以便从网络上获取 HTML 或 XML 内容,并随后使用 BeautifulSoup 来解析这些数据。目前,BeautifulSoup常被用于网页爬虫、数据抓取、自动化测试等场景中。1. 明确爬取目标及信息结构。
2024-11-17 19:39:52
1228
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人