CLong_JAY-优快云博客

原创 python学习第二周：爬虫—使用URL管理器

URL管理器这段代码实现了一个简单的URL管理器（UrlManager），用于管理新发现的URL和已经访问过的URL。这种管理器通常在网络爬虫（Web Crawler）或搜索引擎的爬虫系统中非常有用，以避免重复访问相同的URL。使用了requests库来发送HTTP请求，并使用BeautifulSoup库来解析HTML内容。是爬取http://www.xxx.xxx网站上的信息。

2024-09-28 16:08:22 783

原创 python学习第二周：爬虫—使用 requests 和 BeautifulSoup 库来抓取网页内容

下面是一个简洁的 Python 爬虫代码示例，使用requests和库来抓取网页内容。为了减少被反爬虫机制识别的风险，代码中加入了随机的 User-Agent 头。

2024-09-22 10:01:18 541

原创 python学习第一周：爬虫

摘要：python中jupyter、requests、selenium的导入，Chromedriver的下载应用，简单爬虫语句设置，以及动态资源的捕获。

2024-07-08 11:13:34 297

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人