爬虫快速入门教程：爬虫应该怎么学

原创已于 2023-02-15 22:17:27 修改 · 715 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#爬虫 #python #开发语言

于 2023-02-14 22:39:47 首次发布

爬虫入门教程及实战演练专栏收录该内容

11 篇文章

订阅专栏

本文介绍了爬虫兴起的时代背景，强调数据的重要性。文章详细阐述了爬虫的功能，如大规模抓取网页内容，以及学习爬虫的步骤，包括使用Python进行抓取、解析和存储数据。此外，还提供了一个简单的爬取彩票开奖数据的例子，展示爬虫的实际应用。

数据，是互联网时代最大的财富。

一、爬虫兴起的时代背景

经过了几十年的积累，几十亿用户在互联网中埋下了无数的宝藏。时至今日，每一天互联网中新增的数据量都令人咋舌。

这些年，一个个互联网巨头迅速崛起，市值远远超过大多数重实体资产的传统企业，所有人都不再怀疑大数据的魅力和能量。

依托数据，我们可以通过推荐系统为每个人找到其最喜欢的新闻、视频、商品，通过精准营销为企业找到它们的目标用户，通过智能调度提高出租车的运转效率，通过量化交易割散户韭菜……

在这个时代，数据约等于财富。然而，如果不能有效地对其加以提取和利用，那这个约等号就无法转换为等号。

这些数据或公开、或隐藏，分布在各个角落，在这么庞大的网络中提取我们想要的信息，单纯依托人工的话，是一件不可能完成的事情——尤其是当我们想要提取的信息量也不小的时候。

于是，爬虫工具应运而生。

二、爬虫能做什么

爬虫可以帮助我们大规模、自动化地抓取和解析网页内容，将乱七八糟的网页转换为清爽易用的数据。有了简单易用的数据，下一步我们就可以集中精力挖掘其中的宝藏了。

然而对于很多人来说，爬虫是有一定难度的。老Q当年在搞数据挖掘时，为了能免费获取想要的数据进行探索，不得不咬着牙钻研了很多教程、文档和书籍。事实证明，当初的努力是值得的，后来在工作中，爬虫多次帮我解决了业务问题，这超出了业务团队、领导的期望，为我曾经的绩效、年终立下了汗马功劳。

之前有很多朋友问过我，爬虫是不是很难上手。我的答案是如果按照合适的顺序一步步来，其实一点都不难；但是如果像无头苍蝇一样到处乱跑，的确会走很多弯路。

追根溯源，爬虫无非就是三步：

抓取网页：发送正确的网页请求并取得正确的响应；
解析网页：将一团乱麻的网页代码解析为我们需要的信息；
存储数据：将解析并清洗好的数据以恰当的方式存储下来。

至于爬虫之后的工作，我们暂且按下不表。

三、怎么学习爬虫

Python是非常伟大的语言，它大大节省了我们编写代码的时间。毕竟，人工的成本远远高于机器，牺牲一些性能来换取人力的释放，这无疑可以推动很多领域的更快速的发展。

在本专栏里，我会带着大家使用Python来一步步掌握常用的爬虫技能，包括抓取、解析和存储这三个环节，顺带着还会做一些简单的分析挖掘和可视化，帮助大家领略数据的魅力。在这个时代，不管是什么行业，多学一些数据技能总归是没错的。

大概在二十个左右的章节里，我希望能带领大家掌握urllib、requests、BeautifulSoup、XPath、pyquery这几个重要且基础的爬虫相关的工具，同时作为配套，希望能帮大家熟悉pymysql、pandas、plotly、sklearn等这些存储、分析、可视化甚至机器学习相关的工具。大家有什么问题都可以随时留言沟通。

四、一个简单的例子

相信很多朋友都幻想过拿到所有的彩票开奖数据，然后一通操作成功预测下一期开奖号码，走向人生巅峰。

暂且不说预测开奖号码是否可行，首先我们得把彩票数据抓下来才好。老Q随手在百度搜了一下大乐透历史开奖信息，随机选了一个。大概瞅了一眼，小网站，没做什么反爬策略，几分钟就差不多把脚本写好了。

from urllib.request import urlopen, Request
from lxml import etree
import pandas as pd

url = 'https://datachart.500.com/dlt/history/newinc/history.php?start=00001&end=23010'
headers = {
    'User-Agent': ('Mozilla/5.0 (Windows NT 10.0; Win64; x64)s AppleWebKit/537.36 '
                   '(KHTML, like Gecko) Chrome/109.0.0.0 Safari/537.36 Edg/109.0.1518.61')
}

# 请求网页
req = Request(url, headers=headers)
response = urlopen(req)
content = response.read().decode('UTF-8')

# 解析网页
html = etree.HTML(content)
rows = html.xpath('//tbody[@id="tdata"]/tr')
result = [i.xpath('./td/text()') for i in rows]

# 数据格式转换
cols = ['期数', '蓝球1', '蓝球2', '蓝球3', '蓝球4', '蓝球5', 
        '红球1', '红球2', '奖池奖金', '一等奖注数', '一等奖奖金',
        '二等奖注数', '二等奖奖金', '总投注额', '开奖日期']
df = pd.DataFrame(result, columns=cols)

可以看到，最早一期编号是07001，开奖日期是2007年5月30日，不知不觉已经过去15年了。这15年来，大乐透已经发行了2376期，每一期都没有我。

我们看一下历史总投注额和一等奖的开奖金额有多少：

df[['总投注额', '一等奖奖金']].applymap(lambda x: int(x.replace(',', ''))).sum()

输出为：

总投注额 387188640426
一等奖奖金 15678139643

嗯，大乐透总共收到接近4000亿的投注额，并且派发出去不到160亿的一等奖奖金。也就是说，如果我们只要一等奖，其他的都看不上，那么相当于我们每花出去100块，能回收4块钱。

真是让人心痛。无法呼吸！慈善竟然给我带来了痛苦！

好了，今天带大家简单了解了一下爬虫。后续我会在10-15篇的篇幅里，结合实例带领大家逐步学习爬虫的基本技能，感兴趣的朋友欢迎关注、购买专栏！后续有什么问题，大家可以随时留言沟通。

原创不易，希望大家能给一些支持！