Python网络爬虫入门实践教学以及填坑记录

本文详细介绍从零开始配置Python环境及IDEA,通过实践演示网络爬虫的基础操作,包括下载Python、配置IDEA、尝试编写第一行代码及爬取数据。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

最近一直看到网络爬虫的广告本身就有点兴趣加上一个小伙伴可能需要学习并且使用 所以就先尝试学习了一下 填填坑 这东西理论啊什么都是一大堆 我也不是专业人士 就不多加介绍了 需要去学习原理和理论的可以去Git上看一下大神的讲解
这篇博客的目的也是因为网上很少真实的入门教学 所以写一篇既能方便新人尝试又能记录自己遇到的坑 所以全部都是干货
1.首先下载配置Python环境
官网地址:在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
这里有个坑需要注意一下:因为这个是较为新的版本 需要可以自动配置环境不需要自己去手动配置环境变量了 网上很多教学都还是需要去手动配置环境变量的 这里需要在一开始的地方就进行勾选
在这里插入图片描述
然后正常安装 在这里插入图片描述
安装成功后可以验证一下:win+R 输入cmd 然后输入python --version 看看是不是刚刚安装的版本在这里插入图片描述
2.下载配置IDEA
这里使用的是PyCharm 也就是因为这一步才坚定了我要写这个博客的 一搜PyCharm全是一些病毒已经垃圾骗人的网站 就和你去搜索破解版的PS一样 可能因为这个更多的使用者还是那些非程序员吧
官网下载网址:在这里插入图片描述

这里选择Community版 因为免费
在这里插入图片描述
一路安装就行了:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
3.配置IDEA环境以及尝试
在这里插入图片描述
1.点击创建新项目
在这里插入图片描述
2.这里应该发现IDEA已经自动关联我们刚刚下载的Python了
然后书写第一行代码:
在这里插入图片描述
在这里插入图片描述
这里有个坑 就是按照教学的时候点击右上方的
可是总是显示的不是我创建的file的名称 后来才知道这个智障编辑器需要先手动在这个file的边上run一下才会出现在右上角这里 这里出现的只会是已经编译过的
在这里插入图片描述
到这里整个环境配置以及第一行代码尝试已经完成了
4.尝试爬数据
大家学这个还不是为了爬数据嘛 光写Python有什么乐趣
我也不去和网上那些大佬一样教人写代码 直接上源码 面向Git开发才是最快乐的
这里有一个坑 这个IDEA没有checkout from version control 这里改成了get from version control 弄的我刚开始不知道怎么拉代码
在这里插入图片描述
这里提供一个高Star的GitHub项目地址:在这里插入图片描述
在这里插入图片描述
然后项目就拉下来了
然后还需要导入一堆项目中使用到的包:
例如这种在这里插入图片描述
直接将光标放到红色的地方然后 alt+enter 在这里插入图片描述
选择安装这个包就行了
这里有点需要说明 这里下包应该很多都是需要挂代理才行的 当然也可以配置国内的一些资源库 如果有精力的小伙伴可以去百度一下下Python怎么不挂代理下包 如果和我一样省事的直接挂代理就行了
这里分享一下我使用的代理http://www.2yun.icu/auth/register?code=kGtI
展示一下成果吧:
在这里插入图片描述
最后在写一下网上正常的教学小实践吧:
首先也是下包:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
搜索需要的例如 requests

然后尝试加载一下百度:
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值