作者:禅与计算机程序设计艺术
1.简介
什么是爬虫?
爬虫(英语:Crawler),又称网络蜘蛛,网络机器人,或者只是简单的网络数据采集工具,它是一个可以自动地获取网页、从网页中抽取信息并存储到本地计算机、数据库或其他数据源中的程序或脚本。网站的数据量越来越大,对于数据的更新及时性要求越来越高,传统上采用手动或半自动的方式进行数据的收集工作越来越不现实,于是就产生了爬虫这一技术。
为什么要用爬虫?
网页数据在互联网里变得越来越丰富多样,而作为一个程序员来说,掌握这些丰富的信息对我们开发过程中有着至关重要的作用。爬虫则能够帮助我们提前发现一些数据上的问题,提升我们的效率,节省我们宝贵的时间。
抓取糗事百科案例
本案例基于Python语言和爬虫框架Scrapy,实现了糗事百科爬虫的功能。
2.背景介绍
2.1 概念
糗事百科是中国最大的“无聊”知识图谱网站,每天都会有许多看起来毫无意义的段子出现,这个网站吸引着全世界很多年轻人的注意力。但是阅读段子、观看视频以及浏览美女图片仍然是许多年轻人的标志性习惯。因此,截止目前,糗