
Python爬虫入门
文章平均质量分 93
从0开始学习爬虫,原来爬虫如此简单
爱喝兽奶的荒天帝
优快云全栈领域新星创作者,阿里云专家博主。书山有路勤为径,学海无涯苦作舟。自律遇见更好的自己!!!
展开
-
【Python爬虫实战入门】:笔趣阁小说爬取,一篇教你爬虫入门
requests简介requests模块官方文档requests 是 Python 编程语言中一个常用的第三方库,它可以帮助我们向 HTTP 服务器发送各种类型的请求,并处理响应。向 Web 服务器发送 GET、POST 等请求方法;在请求中添加自定义标头(headers)、URL 参数、请求体等;自动处理 cookies;返回响应内容,并对其进行解码;处理重定向和跳转等操作;检查响应状态码以及请求所消耗的时间等信息。原创 2024-07-16 18:59:25 · 5585 阅读 · 195 评论 -
【Python爬虫实战入门】:教你一个程序实现PPT模版自由
我们发现我们获取的链接的后缀名是不同的,另外这些PPT都是没有名字的,不方便后续保存。到这里其实还有一个问题没有解决,除了以链接下载PPT模版外,还有通过百度网盘链接下载的,这个由于有些复杂,另外通过网盘下载的模版数量很少,这里我们可以直接跳过不下载。在第二次请求的时候我们就可以获取PPT模版的下载地址,接下来就和上面的数据提取一样,利用正则表达式将我们的PPT下载链接提取出来即可。我们发现,除了第一页的url外,从第二页开始,url都是规律变化的,那首先我们可以尝试一下在第一页的url后面加上。原创 2024-05-10 19:42:04 · 3160 阅读 · 147 评论 -
【Python爬虫实战入门】:全球天气信息爬取
requests模块官方文档requests 是 Python 编程语言中一个常用的第三方库,它可以帮助我们向 HTTP 服务器发送各种类型的请求,并处理响应。向 Web 服务器发送 GET、POST 等请求方法;在请求中添加自定义标头(headers)、URL 参数、请求体等;自动处理 cookies;返回响应内容,并对其进行解码;处理重定向和跳转等操作;检查响应状态码以及请求所消耗的时间等信息。BeautifulSoup4模块官方文档。原创 2024-05-07 18:15:42 · 3315 阅读 · 145 评论 -
Python爬虫实战入门:豆瓣电影Top250(保你会,不会来打我)
点击进入数据包之后,首先要查看我们需要的数据是否都在这个数据包里面,如果我们需要的数据在这个数据包里面不全,则这个数据包可能不是我们需要的,要另外进行查找;这里要注意一下,有些电影可能会没有主演信息,如果按照常规方法那样的的话,当没有获取到数据就会报错,为了避免这种情况的发生,可以用异常处理一下,这样就算没有获取到信息也不会报错,程序还是可以继续进行,其他地方像上映年份前后都有。应为字典里面要有所有电影的数据信息,为了方便,我们直接在循环内部定义一个字典,每一部电影的数据都放在一个字典中。原创 2024-03-15 07:49:35 · 17671 阅读 · 140 评论 -
Python爬虫实战入门:爬取360模拟翻译(仅实验)
requests 模块是 python 基于 urllib,采用 Apache2 Licensed 开源协议的 HTTP 库。它比 urllib 更加方便,可以节约我们大量的工作,完全满足 HTTP 测试需求。原创 2024-02-21 15:51:57 · 4032 阅读 · 25 评论