自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 爬虫学习3(豆瓣爬取电影信息)

本文介绍了如何通过Python爬取豆瓣电影排行榜数据。首先分析豆瓣网页结构,发现其下拉刷新机制通过修改URL中的start和limit参数实现数据加载。接着编写爬虫代码:使用requests库发送请求,通过UA伪装绕过反爬;解析返回的JSON格式数据,提取电影名称、评分、类型和主演等信息;最后用pandas将数据整理成DataFrame并保存为CSV文件。代码允许用户输入电影类型序号和查询数量,实现定制化数据抓取。该方法适用于豆瓣这类未设置严格反爬的网站,为电影数据分析提供了基础数据来源。

2025-11-12 16:04:33 1191

原创 爬虫学习2(第一PPT网站信息爬取)

本文介绍了使用Python批量下载PPT模板的两个实用技巧。第一部分演示了如何从"第一PPT"网站爬取生日主题模板,重点解决了网页内容GBK编码问题和动态加载内容的反爬机制,通过结合requests和selenium实现下载。第二部分展示了智能翻页功能,通过解析"末页"链接获取总页数,实现了中秋节PPT模板的自动翻页下载。文章提供了完整的代码示例,包括网页解析、编码处理、动态内容抓取、文件保存等关键步骤,并对特殊字符处理和异常情况进行了说明。这套方法可高效批量下载网站

2025-11-11 16:15:18 841

原创 爬虫学习(京客隆商店的店铺信息爬取)

其实今天第一次接触爬虫来说,我认为的最简单最本质的爬虫步骤其实就是1.先获取要爬取的网页和UA伪装。2.利用requests库拿到响应数据,可以print一下看看访问有没有成功,成功就接着下一步的操作。3.接下来便是利用lxml库的etree函数来解析这份响应数据。4.最后再利用xpath访问你想的具体数值。

2025-11-10 10:12:37 644

原创 学习C语言第二天

自学C

2022-09-26 18:10:25 236

原创 第一天学习C语言

自学C语言

2022-09-23 22:01:14 323

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除