
py_爬虫
跪求一个offer
一只迷茫仔,边走边看。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
py爬虫自学入门__11(用Flask+Redis维护代理池)
一、 定义: 利用代理可以伪装自己的ip进行爬虫的请求,有的请求可能需要许多的代理ip,代理池是许多代理的队列,可以放入与删除,可能进行定期的更新和检查,保证代理的可用性和质量,Redis主要维护池和提供其队列存储,Flask实现代理池的接口,利用web形式返回代理,从而拿到代理。二、 使用代理池的原因: 1、 许多网站有专门的反爬虫措施,可能遇到封ip等问题; 2、 互联...原创 2019-04-09 19:57:55 · 174 阅读 · 0 评论 -
py爬虫自学入门__2(urllib库第一部分)
# 1> 什么是Urllib?# Urllib是:python内置的HTTP请求库. 包含Urllib.request(请求模块) 、Urllib.error(异常处理模块) 、Urllib.parse(url解析模块)、# Urllib.robotparser(robots.txt解析模块).# 只需要输入网址及其他一些请求头之类的信息便可模拟...原创 2019-02-16 05:04:57 · 156 阅读 · 0 评论 -
py爬虫自学入门__3(urllib库第二部分)
# 7)URL解析(urllib.parse模块 --> 工具模块)# 提供一些URL解析方法函数.# a) urlparse函数# 基本规则:urllib.parse.urlparse(urlstring, scheme='', allow_fragments=True)# ...原创 2019-02-26 15:16:11 · 131 阅读 · 0 评论 -
py爬虫自学入门__4(Requests库)
# 一、Requests 定义:用python语言编写,基于urllib,采用Apache2 Licensed 开源协议的HTTP库。简单来说,Requests就是用python实现的简单易用的HTTP库。# 二、 示例: 打印响应的类型、状态码、内容、cookies## 三、 请求(request)# 1> requests的各种请求方式:## 2&g...原创 2019-03-03 21:56:55 · 249 阅读 · 0 评论 -
py爬虫自学入门__5(正则表达式)
# 一、 正则表达式定义:是对字符串操作的一种逻辑公式,就是用事先定义好的一些特殊字符、及这些特定字符的组合,组成一 个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。(python 的 re 模块实现)# 二、常见匹配模式# 注:常用正则表达式大全:http://www....原创 2019-03-07 18:21:05 · 141 阅读 · 0 评论 -
py爬虫自学入门__6(BeautifulSoup库)
# 一、 定义:灵活又方便的网页解析库,处理高效,支持多种解析器。利用它不用编写正则表达式即可方便的实现网页信息# 的提取# BeautifulSoup支持的解析库:https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html(官方文档)# 二、 基本使用...原创 2019-03-12 21:35:40 · 171 阅读 · 0 评论 -
py爬虫自学入门__7(PyQuery库)
# 一、 定义:强大又灵活的网页解析库。# 如果你觉得正则麻烦、BeautifulSoup难记,而且你熟悉jQuery语法,那么就选择PyQuery# 二、 pyquery的初始化# 1> 字符串初始化## 2> URL初始化## 3> 文件初始化## 三、 基本的CSS选择器(层层之间可...原创 2019-03-17 21:25:20 · 177 阅读 · 0 评论 -
py爬虫自学入门__8(Selenium库)
# 一、 Selenium 简介# Selenium 是一个自动化测试工具,支持多种浏览器(如chrome、safari、firefox、一些安卓浏览器等),主要用来 解决JavaScript渲染的问题。 Selenium通过给浏览器发送各种指令,来驱动浏览器去做出各种动作(跳转、输入、点击、下拉等等的操作)...原创 2019-03-19 21:56:18 · 223 阅读 · 0 评论 -
py爬虫自学入门__9(Requests+正则表达式——爬取猫眼电影top100)
# 一、 目标站点分析# 二、 流程框架:# 1> 抓取单页内容# 利用Requests请求目标站点,得到单个网页HTML代码,返回结果。# 2> 正则表达式分析# 根据HTML代码分析得到电影的名称、主演、上映时间、评分、图片链接等信息。# 3> 开启循环及多线程...原创 2019-03-25 21:02:00 · 252 阅读 · 0 评论 -
py爬虫自学入门__10(使用selenium模拟浏览器抓取淘宝商品信息)
'''一、 目标站点分析二、 流程框架 1、搜索关键字: 利用selenium驱动浏览器搜索关键字,得到查询后的商品列表 2、分析页码并翻页: 得到商品页码数,模拟翻页,得到后续页面的商品列表 3、存储至MongoDB: 将商品列表信息存储到数据库MongoDB 4、分析提取商品内容: ...原创 2019-04-06 21:01:59 · 348 阅读 · 0 评论 -
py爬虫自学入门__1
# 1> 爬虫基本原理## 爬虫:请求网站并提取数据的自动化程序# 写代码代替浏览器在网页上获取资源(html代码),在资源文本中(大批量的)采集想要的数据信息## 2> 爬虫基本流程# 1) 发起请求:# 通过HTTP库向目标站点发起请求,即发送一个Request,请求可以包含额外的headers等(配置)信息,等待服务器响...原创 2019-02-15 04:25:24 · 577 阅读 · 0 评论