
爬虫
文章平均质量分 92
数据科学家corten
python 爬虫工程师,数据挖掘工程师,数据分析工程师,机器学习研究员,自然语言处理工程师,量化研究分析员,人工智障调参工程师
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
python scapy 命令
scrapy入门教程3:scrapy的shell命令python scrapy MrZONT 2015年08月29日发布赞 | 1收藏 | 236.6k 次浏览0. 基本环境说明本文截图及运行环境均在Win8上实现(是的,我放假回家了,家里的机器是win8的没有办法原创 2017-09-05 13:46:20 · 1087 阅读 · 0 评论 -
爬虫知识点(Handler和opener以及开放代理和私密代理的使用)(利用urllib2库)
Handler处理器 和 自定义Openeropener是 urllib2.OpenerDirector 的实例,我们之前一直都在使用的urlopen,它是一个特殊的opener(也就是模块帮我们构建好的)。但是基本的urlopen()方法不支持代理、cookie等其他的HTTP/HTTPS高级功能。所以要支持这些功能:使用相关的 Handler处理器 来创建特定功能的原创 2017-10-12 09:22:44 · 772 阅读 · 0 评论 -
python爬虫知识点(cookie,cookielib ,)
CookieCookie 是指某些网站服务器为了辨别用户身份和进行Session跟踪,而储存在用户浏览器上的文本文件,Cookie可以保持登录信息到用户下次与服务器的会话。Cookie原理HTTP是无状态的面向连接的协议, 为了保持连接状态, 引入了Cookie机制 Cookie是http消息头中的一种属性,包括:Cookie名字(Name)Cookie的值(Value)Coo原创 2017-10-12 09:41:32 · 1189 阅读 · 0 评论 -
爬虫知识点(urllib2 的异常错误处理及错误代码)
urllib2 的异常错误处理在我们用urlopen或opener.open方法发出一个请求时,如果urlopen或opener.open不能处理这个response,就产生错误。这里主要说的是URLError和HTTPError,以及对它们的错误处理。URLErrorURLError 产生的原因主要有:没有网络连接服务器连接失败找不到指定的服务器我们可以用tr原创 2017-10-12 09:45:32 · 1768 阅读 · 0 评论 -
爬虫知识点(requests库)
Requests: 让 HTTP 服务人类虽然Python的标准库中 urllib2 模块已经包含了平常我们使用的大多数功能,但是它的 API 使用起来让人感觉不太好,而 Requests 自称 “HTTP for Humans”,说明使用更简洁方便。Requests 唯一的一个非转基因的 Python HTTP 库,人类可以安全享用:)Requests 继承了urllib2的原创 2017-10-12 09:52:23 · 715 阅读 · 0 评论 -
爬虫知识点(re正则关系式)
什么是正则表达式正则表达式,又称规则表达式,通常被用来检索、替换那些符合某个模式(规则)的文本。正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。给定一个正则表达式和另一个字符串,我们可以达到如下的目的:给定的字符串是否符合正则表达式的过滤逻辑(“匹原创 2017-10-12 10:05:47 · 500 阅读 · 0 评论 -
爬虫知识点(session)
import requeststry: import cookielib ###可以把本地的cookie,生成到requests的cookieexcept: import http.cookiejar as cookielibimport reimport timeimport os.pathtry: f原创 2017-11-07 21:18:48 · 871 阅读 · 0 评论 -
机器模型性能度量
1.过拟合:过拟合是指为了得到一致假设而使假设变得过度严格。避免过拟合是分类器设计中的一个核心任务。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。过分学习了训练集的特征。2对于训练集何测试集的选取有:自留法,交叉检验法,自助法评估方法留出法:直接将数据集D划分为两个互斥的集合,其中一个是训练集S,另一个是测试机(准确说是验证集)T。训练集和验原创 2017-11-08 16:57:10 · 450 阅读 · 0 评论 -
爬虫实战(整站爬虫新浪新闻,并按照递归路径存储在本地)
新浪网分类资讯爬虫爬取新浪网导航页所有下所有大类、小类、小类里的子链接,以及子链接页面的新闻内容。效果演示图:items.pyimport scrapyimport sysreload(sys)sys.setdefaultencoding("utf-8")class SinaItem(scrapy.Item): # 大类的标题 和 url pa原创 2017-10-24 17:28:47 · 3086 阅读 · 0 评论 -
爬虫知识点(scrapy_redis分布式爬虫系统)
Scrapy 和 scrapy-redis的区别Scrapy 是一个通用的爬虫框架,但是不支持分布式,Scrapy-redis是为了更方便地实现Scrapy分布式爬取,而提供了一些以redis为基础的组件(仅有组件)。pip install scrapy-redisScrapy-redis提供了下面四种组件(components):(四种组件意味着这四个模块都要做相应的修改)原创 2017-10-25 11:04:42 · 2752 阅读 · 1 评论 -
爬虫知识点(scrapy框架2)
Request其中,比较常用的参数:url: 就是需要请求,并进行下一步处理的urlcallback: 指定该请求返回的Response,由那个函数来处理。method: 请求一般不需要指定,默认GET方法,可设置为"GET", "POST", "PUT"等,且保证字符串大写headers: 请求时,包含的头文件。一般不需要。内容一般如下: # 自己写过爬虫原创 2017-10-24 16:04:14 · 1005 阅读 · 0 评论 -
python 爬虫知识点 (http 基础)
1 dns 可以把网址解析成ip地址;2 robots.txt 爬虫权限:规定爬虫可以爬取的内容,但是并不是懂遵守的,大型搜索引擎公司都是遵守的3 HTTP和HTTPSHTTP协议(HyperText Transfer Protocol,超文本传输协议):是一种发布和接收 HTML页面的方法。HTTPS(Hypertext Transfer Pr原创 2017-10-11 09:38:27 · 608 阅读 · 0 评论 -
通用爬虫(搜索网站爬虫)
1.通用爬虫:搜索引擎用的爬虫系统。-1目标:就是尽可能把互联网上所有的网页下载下来,放到本地服务器里形成备份, 再对这些网页做相关处理(提取关键字、去掉广告),最后提供一个用户检索接口。-2抓取流程: a) 首选选取一部分已有的URL,把这些URL放到待爬取队列。 b) 从队列里取出这些URL,然后解析DNS得到主机IP,然后去这个I原创 2017-10-11 12:34:40 · 6492 阅读 · 0 评论 -
Python 爬虫程序的定时功能与监视
简介我们的爬虫程序在执行过程中,可能需要满足以下条件:1、可以每天定时执行,爬取指定电商等网站内容。2、可以对分布式爬虫进行监控,当爬虫程序挂掉之后,可以通知管理员。 下面我们来介绍如何实现这两个功能。 注意:这里我们主要演示定时执行和监控功能,所以爬虫程序只是伪代码。如果想要详细了解如何实现网络爬虫,可以参考如下一些文章:h原创 2017-08-28 11:55:19 · 4634 阅读 · 2 评论 -
正则关系式
正则表达式正则表达式(英语:Regular Expression,在代码中常简写为regex、regexp或RE)使用单个字符串来描述、匹配一系列符合某个句法规则的字符串 搜索 模式。 搜索模式可用于文本搜索和文本替换。当你在文本中搜索数据时,你可以用搜索模式来描述你要查询的内容。语法: /正则表达式主体/修饰符(可选)在 JavaScript 中,正则表达式通原创 2017-09-06 16:13:16 · 690 阅读 · 0 评论 -
爬虫打破封禁的六种方法
在互联网上进行自动数据采集(抓取)这件事和互联网存在的时间差不多一样长。今天大众好像更倾向于用“网络数据采集”,有时会把网络数据采集程序称为网络机器人(bots)。最常用的方法是写一个自动化程序向网络服务器请求数据(通常是用 HTML 表单或其他网页文件),然后对数据进行解析,提取需要的信息。 本文假定读者已经了解如何用代码来抓取一个远程的 URL,并具备表单如何提交及 Jav原创 2017-08-28 21:54:13 · 2943 阅读 · 0 评论 -
Navicat for MySQL系列]Navicat如何使用
上一篇经验已经建立了数据连接,这篇我介绍一下Navicat for MySQL的“增删改查”功能是如何操作的。工具/原料Navicat for MySQL 10.1.7数据库操作(基本)1远程数据库和本地数据库操作基本相原创 2017-09-22 15:43:23 · 4652 阅读 · 0 评论 -
爬虫知识点(多进程,多线程 多协程)
Python进阶:聊聊IO密集型任务、计算密集型任务,以及多线程、多进程笑虎10 个月前IO密集型任务 VS 计算密集型任务所谓IO密集型任务,是指磁盘IO、网络IO占主要的任务,计算量很小。比如请求网页、读写文件等。当然我们在Python中可以利用sleep达到IO密集型任务的目的。所谓计算密集型任务,是指CPU计算占主要的任务,CPU一直处于满负原创 2017-10-17 15:55:56 · 2043 阅读 · 0 评论 -
爬虫知识点(ajax异步加载,JavaScript 动态刷新,phantomjs + selenium模拟登陆)
JavaScriptJavaScript 是网络上最常用也是支持者最多的客户端脚本语言。它可以收集 用户的跟踪数据,不需要重载页面直接提交表单,在页面嵌入多媒体文件,甚至运行网页游戏。Ajax 当你访问一个网页时 鼠标向下滑 数据不断的更新而http网址没有变化,那么这个网页就利用了ajax异步加载技术我们与网站服务器通信的唯一方式,就是发出 HTTP 请求获取新页面原创 2017-10-19 12:21:19 · 9549 阅读 · 0 评论 -
爬虫知识点(tesseract图形验证码)
from bs4 import BeautifulSoupimport requestsimport timedef captcha(captcha_data): with open("captcha.jpg", "wb") as f: f.write(captcha_data) text = raw_input("请输入验证码:") # 返回用户输原创 2017-10-19 13:37:32 · 357 阅读 · 0 评论 -
scrapy 爬虫遇到的坑
- 第一部分 scrapy 开始一个工程1 scrapy startproject suning_spidei 2 scrapy gensider suning suning.con 开始一个spider 程序模板class Douban(CrawlSpider): name = "doubanMovie" redis_key='原创 2017-09-07 11:48:46 · 2543 阅读 · 0 评论 -
爬虫代码片段
1网页为post请求,同时记录cookie模拟登陆class CreditJizhouSpider(Spider): name = 'credit_jizhou_spider' start_urls = [ 'http://www.tjjz.gov.cn/jx_search/search.do' ] domain = 'http://www.原创 2017-10-26 09:49:33 · 846 阅读 · 0 评论 -
爬虫知识点(scrapy框架)
Scrapy 框架Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便。Scrapy 使用了 Twisted['twɪstɪd](其主要对手是Tornado)异步网络框架来处理网络通讯,可以加快我们的下载速度,不用自己原创 2017-10-19 14:50:23 · 585 阅读 · 0 评论 -
爬虫之pyquery 解析html
PyQuery库也是一个非常强大又灵活的网页解析库,如果你有前端开发经验的,都应该接触过jQuery,那么PyQuery就是你非常绝佳的选择,PyQuery 是 Python 仿照 jQuery 的严格实现。语法与 jQuery 几乎完全相同,所以不用再去费心去记一些奇怪的方法了。官网地址:http://pyquery.readthedocs.io/en/latest/jQuery参考原创 2017-12-14 11:35:05 · 2105 阅读 · 0 评论