Python爬虫 | urllib和正则表达式

本篇文章的源代码可以在后台回复爬虫来获取。

从今天开始,我们要开始学习Python爬虫来爬取网站上的数据。

首先,我们要知道什么是爬虫,爬虫又是怎么工作的。

爬虫又叫数据挖掘、网络机器人等,是用来帮助人们在网络上收集信息的。它可以让你非常快速的获取一些数据并整理。也就是说,它可以自动在网络上寻找你想要的信息并返回给你。

那么,爬虫是怎么工作的呢?

爬虫主要是以分析网页的源代码来获取信息。比如这段HTML网页代码:

<html>
<head>
<title>Hello World</title>
</head>
<body>
<p>Hello World</p>
</body>
</html>

使用爬虫,很容易就可以分析出它会在页面上显示Hello World。(当然,分析的其实是你而不是爬虫)

好了,了解了这些,我们开始吧。

首先我们要新建一个文件夹来储存我们写的代码。我们叫做小爬虫。

双击进到文件夹里面,右键Open Folder as Pycharm Project来在PyCharm中打开这个文件夹。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值