- 博客(5)
- 收藏
- 关注
原创 爬虫学习3(豆瓣爬取电影信息)
本文介绍了如何通过Python爬取豆瓣电影排行榜数据。首先分析豆瓣网页结构,发现其下拉刷新机制通过修改URL中的start和limit参数实现数据加载。接着编写爬虫代码:使用requests库发送请求,通过UA伪装绕过反爬;解析返回的JSON格式数据,提取电影名称、评分、类型和主演等信息;最后用pandas将数据整理成DataFrame并保存为CSV文件。代码允许用户输入电影类型序号和查询数量,实现定制化数据抓取。该方法适用于豆瓣这类未设置严格反爬的网站,为电影数据分析提供了基础数据来源。
2025-11-12 16:04:33
1191
原创 爬虫学习2(第一PPT网站信息爬取)
本文介绍了使用Python批量下载PPT模板的两个实用技巧。第一部分演示了如何从"第一PPT"网站爬取生日主题模板,重点解决了网页内容GBK编码问题和动态加载内容的反爬机制,通过结合requests和selenium实现下载。第二部分展示了智能翻页功能,通过解析"末页"链接获取总页数,实现了中秋节PPT模板的自动翻页下载。文章提供了完整的代码示例,包括网页解析、编码处理、动态内容抓取、文件保存等关键步骤,并对特殊字符处理和异常情况进行了说明。这套方法可高效批量下载网站
2025-11-11 16:15:18
841
原创 爬虫学习(京客隆商店的店铺信息爬取)
其实今天第一次接触爬虫来说,我认为的最简单最本质的爬虫步骤其实就是1.先获取要爬取的网页和UA伪装。2.利用requests库拿到响应数据,可以print一下看看访问有没有成功,成功就接着下一步的操作。3.接下来便是利用lxml库的etree函数来解析这份响应数据。4.最后再利用xpath访问你想的具体数值。
2025-11-10 10:12:37
644
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅