Nsias-优快云博客

原创爬虫学习3（豆瓣爬取电影信息）

本文介绍了如何通过Python爬取豆瓣电影排行榜数据。首先分析豆瓣网页结构，发现其下拉刷新机制通过修改URL中的start和limit参数实现数据加载。接着编写爬虫代码：使用requests库发送请求，通过UA伪装绕过反爬；解析返回的JSON格式数据，提取电影名称、评分、类型和主演等信息；最后用pandas将数据整理成DataFrame并保存为CSV文件。代码允许用户输入电影类型序号和查询数量，实现定制化数据抓取。该方法适用于豆瓣这类未设置严格反爬的网站，为电影数据分析提供了基础数据来源。

2025-11-12 16:04:33 1191

原创爬虫学习2（第一PPT网站信息爬取）

本文介绍了使用Python批量下载PPT模板的两个实用技巧。第一部分演示了如何从"第一PPT"网站爬取生日主题模板，重点解决了网页内容GBK编码问题和动态加载内容的反爬机制，通过结合requests和selenium实现下载。第二部分展示了智能翻页功能，通过解析"末页"链接获取总页数，实现了中秋节PPT模板的自动翻页下载。文章提供了完整的代码示例，包括网页解析、编码处理、动态内容抓取、文件保存等关键步骤，并对特殊字符处理和异常情况进行了说明。这套方法可高效批量下载网站

2025-11-11 16:15:18 841

原创爬虫学习（京客隆商店的店铺信息爬取）

其实今天第一次接触爬虫来说，我认为的最简单最本质的爬虫步骤其实就是1.先获取要爬取的网页和UA伪装。2.利用requests库拿到响应数据，可以print一下看看访问有没有成功，成功就接着下一步的操作。3.接下来便是利用lxml库的etree函数来解析这份响应数据。4.最后再利用xpath访问你想的具体数值。

2025-11-10 10:12:37 644

原创学习C语言第二天

自学C

2022-09-26 18:10:25 236

原创第一天学习C语言

自学C语言

2022-09-23 22:01:14 323

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 爬虫学习3（豆瓣爬取电影信息）

原创 爬虫学习2（第一PPT网站信息爬取）

原创 爬虫学习（京客隆商店的店铺信息爬取）

原创 学习C语言第二天

原创 第一天学习C语言

空空如也

空空如也

原创爬虫学习3（豆瓣爬取电影信息）

原创爬虫学习2（第一PPT网站信息爬取）

原创爬虫学习（京客隆商店的店铺信息爬取）

原创学习C语言第二天

原创第一天学习C语言