- 博客(3)
- 收藏
- 关注
原创 python学习第二周:爬虫—使用URL管理器
URL管理器这段代码实现了一个简单的URL管理器(UrlManager),用于管理新发现的URL和已经访问过的URL。这种管理器通常在网络爬虫(Web Crawler)或搜索引擎的爬虫系统中非常有用,以避免重复访问相同的URL。使用了requests库来发送HTTP请求,并使用BeautifulSoup库来解析HTML内容。是爬取http://www.xxx.xxx网站上的信息。
2024-09-28 16:08:22
726
原创 python学习第二周:爬虫—使用 requests 和 BeautifulSoup 库来抓取网页内容
下面是一个简洁的 Python 爬虫代码示例,使用requests和库来抓取网页内容。为了减少被反爬虫机制识别的风险,代码中加入了随机的 User-Agent 头。
2024-09-22 10:01:18
479
原创 python学习第一周:爬虫
摘要:python中jupyter、requests、selenium的导入,Chromedriver的下载应用,简单爬虫语句设置,以及动态资源的捕获。
2024-07-08 11:13:34
287
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人