目录
本学期爬虫心得
基于本学期的课程,接触到了有关爬虫的知识,首先便需要了解到什么是爬虫,爬虫,即网络爬虫,网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。经过这一学习的学习培养了一些爬虫的思维,虽然还是有好多次搁那浑水摸鱼呜呜,但还是能有培养到一些相关技术,提高了自主学习的能力,在出现问题的时候能知道如何去解决,知道在哪里可以找到解决办法,果然还是得靠人类共同的智慧。非常感谢老师这一学期的教导,可以说是非常的受益匪浅了。通过几次实验,让我能更加深刻的接触与了解有关代码的运用和练习。
一、有关pip模块
1、Urllib
urllib是用来处理网络请求的Python标准库,它是 Python 内置的 HTTP 请求库,也就是说我们不需要额外安装即可使用。
它包含四个模块:
- 第一个模块 request,它是最基本的 HTTP 请求模块,我们可以用它来模拟发送请求,就像在浏览器里输入网址然后敲击回车一样,只需要给库方法传入 URL 还有额外的参数,就可以模拟实现这个过程了。
- 第二个 error 模块,即异常处理模块,如果出现请求错误,我们可以捕获这些异常,然后进行重试或其他操作,保证程序不会意外终止。
- 第三个 parse 模块是一个url解析模块,提供了许多 URL 处理方法,比如拆分、解析、合并等的方法。
- 第四个模块是 robotparser,是一个robots.txt解析模块。主要是用来识别网站的 robots.txt 文件,然后判断哪些网站可以爬,哪些网站不可以爬的,其实用的比较少。
2、Numpy
提供了许多高级的数值编程工具,专为进行严格的数字处理而产生。安装代码如下:
pip install + 下载到的numpy的文件名
出现错误代码时可能pip的版本不对,需要更新pip版本,更新代码如下:
pip install -U pip
3、Parse
用来解析即把源程序翻译成为字节码,一般是指把某种格式的文本(字符串)转换成某种数据结构的过程。安装代码如下:
pip install parse
安装完成之后,可以在 Python 命令行下测试。
import parse
4、Pandas
pandas 是基于Numpy的一种工具,该工具是为解决数据分析任务而创建的。安装代码如下:
pip install pandas
5、BeautifulSoup
Beautiful Soup提供一些简单的python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过析解文档为用户提供需要抓取的数据。BeautifulSoup自动将输入文档转化为Unicode编码,输出文档转化为utf-8编码,你不需要考虑编码方式,BeautifulSoup已经成为和lxml、html6lib一样出色的Python解释器。为用户灵活地提供不同的解析策略或强劲的速度。
6、Scrapy
Scrapy是一个健壮的爬虫框架,可以从网站中提取需要的数据。是一个快速、简单、并且可扩展的方法。Scrapy不是数据库,它并不会储存数据,也不会索引数据,它只能从一堆网页中抽取数据,但是我们却可以将抽取的数据插入到数据库中。安装代码如下:
pip install scrapy (Windows)
pip3 install scrapy(Mac)
7、Scrapyd
Scrapyd是一个用来部署和运行Scrapy项目的应用。安装代码如下:
pip install scrapyd
8、Requests
Requests库是Python的第三方库,是目前公认的爬取网页最好的库,特点有简单,代码简洁,甚至一行代码就能爬取到网页。安装时需要保证Python已经下载到电脑上,安装代码如下:
pip install requests
安装完成后可以启动Requests库测试。
先打开PyCharm,创建一个新的py文件,然后输入:
import requests #导入Requests库
#get获取网页
r = requests.get('https://www.啥网站都行.com')
# 检查连接状态,如果是200就是正常
9、PyMongo
pymongo是Python中用来操作MongoDB的一个库。
所以要利用Python操作MongoDB,有以下两个步骤:
1.在电脑上安装MongoDB;
2.在Python上装入pymongo的库