
Python网络爬虫
我有两颗糖
你不妨大胆一些,爱一个人,攀一座山,追一个梦。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Python爬虫学习 1 —— 爬虫入门篇
&emap;&emdp;学完pygame之后,就迫不及待想学python的更多应用了,一直对网络爬虫这个词很好奇,它究竟是怎样爬取网页信息的呢,于是小白就启动学习爬虫的计划啦。一、爬虫相关知识1、什么是网络爬虫? 百度百科对网络爬虫的定义是:一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。简单地说,网络爬虫就是我们通过程序模拟浏览器访问网页来大批量地抓取网页信息。...原创 2019-08-13 13:04:35 · 412 阅读 · 0 评论 -
Python爬虫学习 6 —— 使用bs4库爬取大学排名
前面学了如何使用beautifulsoup,现在来尝试简单的爬取:中国大学排名一、准备查看Robots协议:robots协议功能描述输入:大学排名的url链接输出:大学排名信息(排名,大学名称,总分)实现思路从网页上获取HTML内容提取HTML内容中的有用信息到合适的数据结构利用数据结构展示输出结果程序框架从网络上获取大学排名网页内容:getHTMLText()提取...原创 2019-08-16 20:55:45 · 607 阅读 · 0 评论 -
Python爬虫学习 5 —— 使用BeautifulSoup提取信息
一、信息标记的三种形式XML:eXtensible Markup Language1、特点类似HTML,使用标签允许有注释2、例子<person> <firstName>Tian</firstName> <lastName>Song</lastName> <address> <stre...原创 2019-08-16 18:41:45 · 404 阅读 · 0 评论 -
Python爬虫学习 4 —— 使用BeautifulSoup解析HTML
之前我爬取得到的页面都是HTML文档,阅读起来不是很友好,我们可以使用 bs4 库的BeautifulSoup模块来解析HTML,分析提取其中的内容。一、bs4插件的安装step1:打开cmdstep2:输入下面命令安装bs4 pip install bs4二、BeautifulSoup类的使用我们首先需要制作soup,再通过soup完成各种操作:语法: fro...原创 2019-08-16 15:47:47 · 1253 阅读 · 0 评论 -
Python爬虫学习 3 —— 尝试写几个小爬虫
前面学习了requests库,现在来尝试爬取几个网页吧。一、爬取亚马逊图书信息step1: 初步尝试:首先使用requests库的get函数获取response对象:import requestsurl = "https://www.amazon.cn/dp/B01JRE0HIY/ref=lp_116170071_1_1?s=digital-text&ie=UTF8&a...原创 2019-08-15 19:29:38 · 242 阅读 · 0 评论 -
Python爬虫学习 2 —— 使用requests
学习爬虫最先尝试的是requests库,感觉它用起来特别方便,requests拥有简便的API,我们使用起来也不难。一、安装requests库step1:Windows+ R打开cmdstep2:使用pip快速安装request,输入下面的命令 pip install requests二、发送请求例子:获取并打印一个url的内容:import requestsurl = ...原创 2019-08-14 17:11:11 · 687 阅读 · 0 评论 -
Python爬虫学习 10 —— Scrapy爬虫的实例
Scray是一个功能强大且非常快速的爬虫框架,具体学习它的基本使用。一、建立一个Scrapy爬虫工程首先需要知道cmd的cd命令:C:\Users\xxx>d: # 切换到D盘:D:\>cd python123demo # 进入D:\python123demo:D:\python123demo>cd.. # 回到上一级目录:D:\python1...原创 2019-08-19 11:38:05 · 686 阅读 · 0 评论 -
Python爬虫学习 9 —— scrapy爬虫框架
Scray是一个功能强大且非常快速的爬虫框架,具体学习它的基本使用。一、scrapy介绍scrapy:它是一个爬虫框架结构,它包含了五个模块和两条之间线路:主要模块:模块描述SPIDERS发送请求,处理响应,需要用户自己编写(配置)ENGINE接受request请求并大宋到SCHEDULER模块SCHEDULER调度请求,向ENGINE发送真...原创 2019-08-18 17:43:51 · 505 阅读 · 0 评论 -
Python爬虫学习 8 —— re库的使用
上一篇博客我们学习了正则表达式,python有一个re库专门用于正则表达式匹配。一、浅谈Re库导入re库:Re库是Python的标准库(使用时不需要安装额外的插件),主要用于字符串匹配。调用方式:import re正则表达式的表示:raw string:原生字符串类型表示方法 :r’text’举个栗子 :r’[1-9]\d{5}’ (其中的 \ 不被当作转义符处理)raw...原创 2019-08-18 17:43:18 · 499 阅读 · 0 评论 -
Python爬虫学习 7 —— 正则表达式
当我们从HTML text中提取信息时,可以发现很多信息都是有规律的,比如我们要获得网页链接url、提取网页中的IP、查询具有某种规律的字符串。正则表达式就是用于匹配具有某种规律的字符串而产生的,换句话说,正则表达式就是记录文本规则的代码。一、正则表达式介绍正则表达式:regular expression (RE)正则表达式是用来简介表达一组字符串的表达式。用途:表达文本类型的特...原创 2019-08-17 11:33:46 · 454 阅读 · 0 评论