
Python爬虫
文章平均质量分 93
有关心情
在python的道路上越走越远(一个初级小白,永远的小白)
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Python爬虫系列
Python爬虫系列 @(博客)[Python, 爬虫] 背景 由于近来学(lan)业(ai)繁(fa)忙(zuo),快一个月没有更新博客了。这周完成了两门课的结课考试,现下时间开始变得充裕。准备梳理一下前段时间学习的关于Python爬虫的内容,权当复习巩固知识。而初次学习时遇到的疑难杂症,那时候的应对策略是抓大放下,在这梳理过程会下定决心一一攻克。 由于本人技术有限,错漏处还望各友不...原创 2018-05-19 07:37:24 · 599 阅读 · 5 评论 -
Python爬虫-速度(2)
Python爬虫-速度(2) 文章目录Python爬虫-速度(2)前言并发与并行异步与同步/阻塞和非阻塞多进程多线程协程+异步 018.9.17 前言 我原有个习惯,就是每写个什么东西,都会在开头记下日期。今天得空复查这篇内容的时候,发现居然赫然显示着:018.9.17。 十天就这么过去了。 很难说我这10天里到底做了什么,收获了什么。因为我确实未发现自己在这时间里有如何的长进。倒是再一次加深了对...原创 2018-11-12 13:57:44 · 999 阅读 · 0 评论 -
Python爬虫-速度(1)
Python爬虫-速度(1) 文章目录Python爬虫-速度(1)前言网页分析接口设计运行效果 018.9.16 前言 其实爬虫的整个基本流程已经讲完了。无论是如何发起请求,还是解析文件,再到存储,以及处理需要js渲染的网页。入门需要掌握的,也不过这些而已。只是可能还不够,比方说速度。在我们不想用框架,如scrapy,但仍想为程序提速的时候,应该怎样解决呢? 我认为大概可以从多进程,多线程,协程,...原创 2018-11-12 13:51:25 · 4428 阅读 · 0 评论 -
Python爬虫-Selenium(2)
selenium(2) @(博客)[selenium, python, 爬虫] selenium(2) 前言 动作链 1. 拖拽 2. 滑动 3. 其他 执行js语句 其他 1. Select 2. alert 前言 上一次说了一些关于selenium的使用以及固定的配置(禁止提示,禁止加载图片,无头设置),可selenium的强大远不于此。 动作链 动作链...原创 2018-09-10 19:08:29 · 420 阅读 · 0 评论 -
Python爬虫-Selenium(3)
Python爬虫-Selenium(3) @(博客)[selenium, python, 爬虫, 破解极验] Python爬虫-Selenium(3) 实战滑动验证 思路 找出滑动距离 1. 干掉滑块图案 2. 获取两张图片 3. 获取图片的位置 4. 获取移动距离 模拟人操作 运行效果 总结 实战滑动验证 国家企业信用信息公式系统(上海)(http://www.sg...原创 2018-09-11 21:20:27 · 604 阅读 · 0 评论 -
Python爬虫-Selenium(1)
Python爬虫-Selenium(1) @(博客)[python, 爬虫, selenium, Python] Python爬虫-Selenium(1) 前言 前期准备 基础使用 进阶使用 浏览器操作 节点操作 等待 异常 cookies 其他设置 禁止提示 禁止加载图片 无头设置 实战新浪微博 要求 注意 效果 问题 前言 如果一定要说什么东西会记忆犹新...原创 2018-08-23 18:13:08 · 887 阅读 · 0 评论 -
Python爬虫-Redis
Python爬虫-Redis Python爬虫-Redis 前言 启动服务器 启动客户端 数据操作 string 键命令 hash list set zset 发布订阅 主从配置 与python交互 利用redis实战 反思 前言 作为跟MongoDB同样NoSQL阵营的Redis,也具有类似的“直爽快”特性。它本身读取速度快,又提供丰富的数据结构,避免程序员重复造轮子。...原创 2018-07-22 07:51:55 · 1422 阅读 · 0 评论 -
Python爬虫-MongoDB
Python爬虫-MongoDB @(博客)[python, 爬虫, mongodb, 数据库, Python] Python爬虫-MongoDB 前言 与MySQL对比 启动/关闭MongoDB 操作 数据库操作 集合操作 数据操作 增 删 改 查 保存 运算符 高级操作 聚合 常用管道 常用表达式 安全性 与python交互 018.6.19 前言 如...原创 2018-07-06 12:46:44 · 1113 阅读 · 0 评论 -
Python爬虫-MySQL
Python爬虫-MySQL Python爬虫-MySQL 前言 三范式 常用字段类型 约束 SQL语句命令行 登陆操作 用户操作 数据库操作 表操作 数据操作 事务 与Python交互 QQ音乐之体面 在最后 前言 在请求数据、提取数据后,我们还需要做什么呢?答案无疑是:存储数据。这之前,我们每一次都将数据保存在文本txt格式中,这没什么不可以的。但并不存在“各样问题最...原创 2018-06-27 15:28:16 · 1714 阅读 · 2 评论 -
Python爬虫-PyQuery
Python爬虫-PyQuery Python爬虫-PyQuery 一些看法 使用 语法 初始化 选择标签 遍历 对标签操作 伪类选择器 *eq()的使用 代码 一些看法 关于数据提取的四个主流方法就回顾完了,当然不用也不必全会。我个人认为正则是一定要OK的,其余三个拣一个上手即可。剩下部分,总得达到“开书了然”的境界吧。毕竟说不定什么时候就需要阅览别人的代码,你怎么管得...原创 2018-06-20 13:13:22 · 670 阅读 · 0 评论 -
Python爬虫-正则
Python爬虫-正则 Python爬虫-正则 前言 使用 语法 表示字符 表示个数 表示边界 区配分组 re的高级用法 贪婪与非贪婪 注意项 前言 想说正则的知识点并不多,需要思考地方却不少。python里提取数据的方式很多,但私以为掌握那些中的某一个的同时,一定要兼顾正则。主观推崇原因有二,一:re是python的基本库,不需要额外安装且解析速度快;二:正则能做到...原创 2018-06-16 10:45:24 · 2740 阅读 · 1 评论 -
Python爬虫-xpath
Python爬虫-xpath Python爬虫-xpath 说明 再说明 插件推荐 语法讲述 举栗子 代码里使用 实战句子迷 需要的总结: 说明 关于Python爬虫请求数据方面的知识点基本讲完,但请求到数据之后呢? 当然是提取数据,抓出对我们有价值的内容是整个爬虫流程的关键步骤之一。现下流行方法有:xapth,BeautifulSoup,正则,PyQuery。如无意外,我...原创 2018-06-08 22:52:17 · 592 阅读 · 0 评论 -
Python爬虫-BeautifulSoup
Python爬虫-BeautifulSoup Python爬虫-BeautifulSoup “美丽汤”的爱恨 使用 爱丽丝文档示例 标签 遍历 find(),findAll() 综合使用 支持正则 CSS选择器 “美丽汤”的爱恨 前边说偏爱xpath,在于操作简单,解析速度较快。但不可否认:BeautifulSoup比xpath稳定。但凡网页的标签顺序发生变化(增删改),...原创 2018-06-13 22:36:35 · 1757 阅读 · 0 评论 -
Python爬虫-requests
python爬虫-requests python爬虫-requests 说明 基于python3实现 主要方法: 异常: 参数 session对象 说明 无疑,py3上也可以使用urllib2库,但入门时走的py2路线,所以坚持了这一贯的曲风。而这之后会刻意转py3,requests库的使用就成了重中之重。可实在没什么好讲述的,有了urllib2基础之后,基于一个“使...原创 2018-05-30 18:01:25 · 854 阅读 · 0 评论 -
Python爬虫-urllib2(2)
Python爬虫-urllib2(2) @(博客)[python, 爬虫, urllib2, Python, 代理] Python爬虫-urllib2(2) post请求方式 设置代理 web客户端授权验证 处理需要登陆账号的爬虫(Cookie) a.直接cookie法实现豆瓣的登录 b.cookielib之CookieJar实现人人网旧入口登录 c.cookielib之LWPCookie...原创 2018-05-21 09:30:23 · 492 阅读 · 0 评论 -
Python爬虫-urllib2(1)
Python爬虫-urllib2(1) @(博客)[python, 爬虫, urllib2, Python] Python爬虫-urllib2(1) 理解响应报头和请求报头 需要的库 什么是url编码 如何发送一个请求 构建一个请求报头 构建发送方式 实现一个简单的、完整的爬虫小程序 一个小技巧 018.5.18 理解响应报头和请求报头 在这里不做知识延伸,我们只需要知道...原创 2018-05-19 07:48:33 · 3042 阅读 · 0 评论 -
Python爬虫-速度(3)
Python爬虫-速度(3) 文章目录Python爬虫-速度(3)前言普通爬虫多进程提速多线程提速异步协程提速最后 018.11.11 前言 早之前是以为会一口气把爬虫这个系列了结的,但不知何故,居然没做到——我肯定不会怪罪自己的拖延症呀!只是有开头就得有结尾,毕竟我是那么那么注重仪式感的人。 再从GitHub把代码clone下来,发现不能用了。刨根问底,居然是学校就业网站改版,这倒令我惊奇。会是...原创 2018-11-12 14:05:19 · 2778 阅读 · 0 评论