自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 python学习第二周:爬虫—使用URL管理器

URL管理器这段代码实现了一个简单的URL管理器(UrlManager),用于管理新发现的URL和已经访问过的URL。这种管理器通常在网络爬虫(Web Crawler)或搜索引擎的爬虫系统中非常有用,以避免重复访问相同的URL。使用了requests库来发送HTTP请求,并使用BeautifulSoup库来解析HTML内容。是爬取http://www.xxx.xxx网站上的信息。

2024-09-28 16:08:22 726

原创 python学习第二周:爬虫—使用 requests 和 BeautifulSoup 库来抓取网页内容

下面是一个简洁的 Python 爬虫代码示例,使用requests和库来抓取网页内容。为了减少被反爬虫机制识别的风险,代码中加入了随机的 User-Agent 头。

2024-09-22 10:01:18 479

原创 python学习第一周:爬虫

摘要:python中jupyter、requests、selenium的导入,Chromedriver的下载应用,简单爬虫语句设置,以及动态资源的捕获。

2024-07-08 11:13:34 287

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除