[Python]实战——百度贴吧爬虫

最新推荐文章于 2021-02-03 15:21:15 发布

原创

最新推荐文章于 2021-02-03 15:21:15 发布 · 807 阅读

3 ·

CC 4.0 BY-SA版权

本文介绍了使用Python进行网络爬虫，特别是针对百度贴吧的爬取。内容涵盖了Python环境搭建，包括requests和lxml库的安装，以及XPath的使用来解析网页。同时，文章还讨论了多线程在爬虫中的应用，提供了一个简单的多线程Python爬虫示例。

网络爬虫(Web Spiders)是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成。半年前，我接触了Lucene搜索引擎开发——开始了网络爬虫之旅；当时，采用的是纯JAVA开发环境，对百度某吧几百万帖子进行了全面爬取。那时候我对Python一点都不了解，今天对《Pyhon基础教程：第2版·修订版》以及极客学院相关视频进行了学习，形成了本文。

Key Words: 网络爬虫, 多线程, requests, XPath, lxml

1. 本文相关环境

开发工具与平台：Python2.7, Windows7, PyCharm

Python第三方包下载平台：http://www.lfd.uci.edu/~gohlke/pythonlibs/，该平台可以下载几乎所有Python包，包括本文的requests,lxml，下载之后如何安装（见下文）。另外，推荐一款json格式化工具：HiJson。

2. Windows平台，如何安装requests、lxml包？

从上述网站上，选择合适自己的版本（Ctrl+F，可搜索），下载完成后：

①将后缀“.whl”更改为“.zip”；