抠肚脐眼-2022年网络我的网络爬虫学习心得

最新推荐文章于 2023-01-08 11:58:36 发布

原创

最新推荐文章于 2023-01-08 11:58:36 发布 · 834 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python

本文记录了作者本学期的Python爬虫学习心得，涵盖了Urllib、Numpy、BeautifulSoup、Scrapy等关键模块的介绍和使用，以及Scrapyd、Gerapy等工具的部署。通过实验，作者实践了Jupyter爬虫、Scrapy爬虫的构建以及Gerapy的使用，加深了对爬虫技术的理解。

本学期爬虫心得

基于本学期的课程，接触到了有关爬虫的知识，首先便需要了解到什么是爬虫，爬虫，即网络爬虫，网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成。经过这一学习的学习培养了一些爬虫的思维，虽然还是有好多次搁那浑水摸鱼呜呜，但还是能有培养到一些相关技术，提高了自主学习的能力，在出现问题的时候能知道如何去解决，知道在哪里可以找到解决办法，果然还是得靠人类共同的智慧。非常感谢老师这一学期的教导，可以说是非常的受益匪浅了。通过几次实验，让我能更加深刻的接触与了解有关代码的运用和练习。

一、有关pip模块

1、Urllib

urllib是用来处理网络请求的Python标准库，它是 Python 内置的 HTTP 请求库，也就是说我们不需要额外安装即可使用。

它包含四个模块：

第一个模块 request，它是最基本的 HTTP 请求模块，我们可以用它来模拟发送请求，就像在浏览器里输入网址然后敲击回车一样，只需要给库方法传入 URL 还有额外的参数，就可以模拟实现这个过程了。
第二个 error 模块，即异常处理模块，如果出现请求错误，我们可以捕获这些异常，然后进行重试或其他操作，保证程序不会意外终止。
第三个 parse 模块是一个url解析模块，提供了许多 URL 处理方法，比如拆分、解析、合并等的方法。
第四个模块是 robotparser，是一个robots.txt解析模块。主要是用来识别网站的 robots.txt 文件，然后判断哪些网站可以爬，哪些网站不可以爬的，其实用的比较少。

2、Numpy

提供了许多高级的数值编程工具，专为进行严格的数字处理而产生。安装代码如下：

pip install + 下载到的numpy的文件名

出现错误代码时可能pip的版本不对，需要更新pip版本，更新代码如下：

pip install -U pip

3、Parse

用来解析即把源程序翻译成为字节码，一般是指把某种格式的文本（字符串）转换成某种数据结构的过程。安装代码如下：

pip install parse

安装完成之后，可以在 Python 命令行下测试。

import parse

4、Pandas

pandas 是基于Numpy的一种工具，该工具是为解决数据分析任务而创建的。安装代码如下：
pip install pandas

5、BeautifulSoup

Beautiful Soup提供一些简单的python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过析解文档为用户提供需要抓取的数据。BeautifulSoup自动将输入文档转化为Unicode编码，输出文档转化为utf-8编码，你不需要考虑编码方式，BeautifulSoup已经成为和lxml、html6lib一样出色的Python解释器。为用户灵活地提供不同的解析策略或强劲的速度。