
爬虫
master_ning
master_ning,不定期分享最有用,最实在的原创内容
展开
-
scrapy的request的meta参数是什么意思?
meta是一个字典,主要是用解析函数之间传递值,常见的情况是:在parse中给item某些字段提取了值,但是另外一些值需要在parse2中提取,这时候需要将parse中的item传到parse2方法中处理,显然无法直接给parse2设置而外参数。 Request对象接受一个meta参数,一个字典对象,同时Response对象有一个meta属性可以取到相应request传过来的meta。实例函数如下...原创 2018-06-03 19:06:02 · 8150 阅读 · 0 评论 -
股东控股关系图谱简化版
最近在爬一些企业类的数据,在要取股东控股关系图谱时,问题来了标签不一致,还要挨个把数据取出来。才像个控股的样子,像这样的直接来个简化版的把这一部分的源码取出来,再用xpath,匹配取数据终于有点控股关系的样子了,其他的再慢慢完善 ...原创 2018-09-26 17:58:06 · 2393 阅读 · 0 评论 -
user-agent各个参数详解
最近在研究ua信息,现在总结一下ua信息各个参数代表的意思以及哪些参数可以修改,哪些可以删除现在,随便拿出一个ua,Mozilla/5.0 (Linux; U; Android 7.0;m2 note Build/LMY47D) AppleWebKit/604.1.38 (KHTML, like Gecko) Version/5.0.2 MQQBrowser/6.7 Mobile/15A...原创 2018-08-16 18:57:19 · 7786 阅读 · 0 评论 -
爬取51job职位信息
今天在爬职位信息的时候,先用的requests模块,后来发现,获取的数据全部是乱码。果断换成selenium+Chrome,成功获取数据,保存MongoDB在前期校验获取成果时,建议用selenium+Chrome,后期测试通过,换成无界面的PhantomJS代码如下:import timefrom selenium import webdriverfrom selenium.webdriver....原创 2018-07-07 20:00:54 · 1508 阅读 · 0 评论 -
用execjs破解百度翻译sign
打开开发者工具:查翻译发送的请求信息,得到其 FormData 看到有个sign,接下来就破解一下,signsign 这个参数,应该如何设置?我们在 js 代码中,发现在某个 index_xxx 开头的 js 代码中发现一段可疑代码。将这段代码在格式化工具中重新排版一下,可以找到sign,是由待翻译的信息再用m函数运行之后得到的,m函数js代码如下:function a(r) { i...原创 2018-07-11 16:45:51 · 3571 阅读 · 2 评论 -
安装pyv8 过程出现的问题 src/Exception.h:6:10: fatal error: v8.h: 没有那个文件或目录
src/Exception.h:6:10: fatal error: v8.h: 没有那个文件或目录 error: command 'x86_64-linux-gnu-gcc' fai今天在安装pyv8的时候出现各种坑,最后还是让我解决掉了,下面梳理一下bug,为大家呈上教程首先在安装pyv8之前,要先安装依赖:安装依赖 首先安装依赖:Boost, 这一步网上的大部分教程都差不多,也是必须的; s...原创 2018-07-03 17:26:19 · 2772 阅读 · 1 评论 -
聚焦爬虫与通用爬虫详解
根据使用场景,网络爬虫可分为 通用爬虫 和 聚焦爬虫 两种.通用爬虫通用爬虫:搜索引擎用的爬虫系统。搜索引擎和web服务商提供的爬虫。目标:就是尽可能的;把互联网上的所有的网页下载下来,放到本地服务器里形成备分,在对这些网页做相关处理(提取关键字、去掉广告),最后提供一个用户检索接口。抓取流程:首先选取一部分URL,把这些URL放到待爬取队列。从队列取出URL,然后解析DNS得到主机IP,然后保存...原创 2018-07-01 21:31:45 · 7034 阅读 · 0 评论 -
使用selenium爬取某宝商品信息
使用selenium +PhantomJS()/Chrome爬取 淘宝页面首先创建一个config.py的文件。在里面做些适当配置:# 缓存模式SERVICE_ARGS = ['--disk-cache=true']# 搜索名称KEYWORD = '情人节礼物'在主文件中编写代码:# coding:utf-8import refrom pprint import pprintfrom seleni...原创 2018-06-10 14:35:56 · 527 阅读 · 0 评论 -
使用scrapy进行模拟登陆三种方式
scrapy有三种方法模拟登陆方式:- 直接携带cookies- 找url地址,发送post请求存储cookie- 找到对应的form表单,自动解析input标签,自动解析post请求的url地址,自动带上数据,自动发送请求1、携带cookies登陆githubimport scrapyimport reclass Login1Spider(scrapy.Spider): nam...原创 2018-06-06 00:02:23 · 6111 阅读 · 0 评论 -
获取frame 标签里#documents里面的内容
最近几天在爬一个网站,里面有frame标签。今天有想获取frame标签下面#documents里面的内容,查了一晚上的资料,幸好找到,明天可以交差了。。。一个有frame标签的网站,http://www.lmtw.com/search.php?show=title%2Ckeyboard%2Cwriter&searchget=1&keyboard=%E7%94%B5%E8%A...原创 2018-12-25 20:36:02 · 3155 阅读 · 1 评论