python爬虫笔记--- 入门资料合集

本文为非程序员提供Python爬虫学习的前期准备和入门教程。首先,介绍了预备知识,包括理解HTML5、CSS、JavaScript以及Python3的正则表达式。推荐了相关学习资源。其次,讲解了Python环境的搭建,推荐使用PyCharm,并详细说明了如何安装Python、requests和bs4库。最后,列举了两个入门教程链接,分别适合不同背景的学习者。

身边很多非程序员朋友都想学一学爬虫来扩展自己的知识宽度,因此这里开一篇文章来汇总一下我初学的一些笔记和前期知识储备。

 

1.前期准备:

a.预备知识:

html5 前端语言 : https://www.runoob.com/html/html-tutorial.html --- 进行爬虫开发的时候需要对网页前端有一个大概的了解,建议多看一看,非常重要。

如果有时间,一定要顺便去学一下css和javascript,这两个也是重要的前端语言。

python 3.x 的正则表达式 : https://www.runoob.com/python3/python3-reg-expressions.html  --- 这个是为了后期可以对抓到的数据进行清洗和组织,以便我们使用。

python 3.x的教程: https://www.runoob.com/python3/python3-tutorial.html --- 有些朋友可能对编程没有学习过,所以简单学一下,不需要很深入,你只需要知道一些基础的语法还有怎么装库 。

这些是大一点的分类的知识,当然了你还需要对requests还有bs4下的BeautifulSoup库有一个了解,其他的后续我会补上。

b.环境:

首先你需要下载一个python环境,推荐PyCharm,具体的百度就行,注意安装时候要设置PATH(选项),这样方便。

然后安装requests和bs4的库,为此打开 PyCharm,单击“File”(文件)菜单,选择“Setting for New Projects...”命令。

选择“Project Interpreter”(项目编译器)命令,确认当前选择的编译器,然后单击右上角的加号。

在搜索框输入:requests(注意,一定要输入完整,不然容易出错),然后单击左下角的“Install Package”(安装库)按钮。(bs4同理)

然后确认,注意如果你编译的时候提示说你没有,那你就在环境那边选一下,有可能是选的默认环境。

 

2.入门教程汇总:

http://c.biancheng.net/view/2011.html 这个是入门比较清楚的版本,推荐

https://blog.youkuaiyun.com/aaronjny/article/details/77945329 这个是基于指令行的,需要编程经验。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值