
python爬虫
yunlongliang
不恋过往,不畏将来
展开
-
爬虫之xpath表达式
说明总结自己在爬虫过程中遇到的xpath表达式用法在爬虫解析网页的时候,有多种方式可以可以提取网页元素。比如最基本的正则表达式、xpath、bs4、以及在scrapy中的css选择器。对于这些工具在爬虫的时候都遇到过,但是唯独喜欢用xpath,感觉提取很简介。同时也会掺杂一些正则表达式来做一些小的提取。在记录xpath用法时,这里没有实际网页操作,仅当记住这种语法就是了。操作语法...原创 2018-07-24 22:01:54 · 2109 阅读 · 0 评论 -
领英模拟登陆
说明上一篇文章已经爬虫目的, 脉脉模拟登陆。领英模拟登陆难度略大于脉脉操作1、登陆接口其中session_key是用户名,session_password是密码。关键点1、loginCsrfParam2、cookie3、csrf_token寻找参数1、loginCsrfParam这个参数是你访问领英首页就会响应的一个结果,可以通过xpath定位...原创 2019-02-28 11:13:32 · 3006 阅读 · 3 评论 -
起点网 字体反爬
起点女生网爬虫,主要反爬措施,字体混淆,16进制转换。目标网站 https://www.qidian.com/mm/all本爬取该网站40W+小说信息(不包含小说详细内容),存进mongodb操作1、主要对如下字段进行解释2、在源码中找到如下字段的显示3、面对这个结果,我们第一反应就是字体混淆,然后直接在源码中搜索woff,然后把该链接的文件下载到本地,然后利用TT...原创 2018-11-16 17:02:02 · 1070 阅读 · 0 评论 -
网易有道翻译接口破解
说明该网站是有反爬措施的,主要的措施是JS加密参数,随机COOKIE参数目标网站 http://fanyi.youdao.com/目的:我们希望获取翻译接口,可以使用代码调用其接口来做翻译。操作1、打开浏览器进入网站,随便输入一个需要翻译的内容这是主要的几个参数,其他的参数包含了翻译的规格,以及一些无关的参数。。其中 i 是我们需要翻译的内容salt 很明...原创 2018-11-14 16:19:51 · 2933 阅读 · 1 评论 -
Appium爬虫(hello world)
前提条件环境准备妥当,环境参考 https://blog.youkuaiyun.com/yunlongl/article/details/83898507操作步骤本篇先使用JAVA,python后面更新。打开intelliJ IDEA,创建一个maven项目在pom.xml中添加如下信息<dependencies> <dependency> ...原创 2018-11-09 16:55:40 · 986 阅读 · 0 评论 -
Appium爬虫环境搭建
环境说明1、所需软件appium,java,android-sdk2、安装appium下载地址:https://github.com/appium/appium-desktop/releases/tag/v1.8.2根据自己电脑规格下载对应的版本安装过程中没有什么问题,下一步下一步就可以完成2、JDK下载,下载java8jdk下载地址: https://www.or...原创 2018-11-09 16:21:22 · 987 阅读 · 0 评论 -
爬取实习僧APP存进mongodb
说明采用的工具有1、fiddler抓包工具2、安卓手机由于最近找实习工作基本用的就是实习僧这个软件,于是闲来没事做,就爬了一下手机APP的数据,但是仅仅爬取的是爬虫,和python相关的实习岗位。由于博客上第一次记录手机app爬虫,于是就详细记录一下过程。操作步骤设置浏览器代理 1、打开fiddler2、Tools->options3、Eepo...原创 2018-08-08 22:09:38 · 936 阅读 · 2 评论 -
搜狗微信添加搜索工具爬虫
前言之前也有做过搜狗微信的爬虫,但是,在加入搜索工具的时候需要加入上一步的cookie,但是我们每次的cookie会有时效性。而且经常被封锁,这是一个很让人头疼的事情。就算使用了scrapy中的cookiejar也同样表现出了不稳定。而且还需要维持一个cookie池,就在我写cookie池代码的时候发现了这样的一个事情。实际上我们在请求搜索工具的时候是需要上一步的链接的,表名我们这一步是从哪一...原创 2018-08-05 23:16:01 · 8489 阅读 · 4 评论 -
字符串列表元组字典的转换
说明这是我在爬虫中遇到的一个真实案例,这个爬虫是动态加载的。但是当我们拿到这个数据的时候,并不是很理想。其内容通过进一步解析之后是这样的。([{"id":"680501","title":"揪住疫苗不放,公益诉讼请不要辜负民众期待","linkurl":"http://m.mp.oeeee.com/a/BAAFRD00002018072592681.html","tim原创 2018-07-27 14:11:48 · 1151 阅读 · 0 评论 -
python 时间格式解析
说明本文记录自己在爬虫过程中遇到的时间解析过程,因为有些网站显示的时间格式千奇百怪,但是我们存到数据库的格式却是唯一的。下面讲自己在某论坛网站上遇到的时间格式解析操作在下面的所有时间操作中,都是将时间转换成标准的格式 %Y-%m-%d %H:%M:%S 示例:2018-07-26 18:56:42在示例代码中会出现 s_time 这个字符串是我们提取出来的字符串,需要做处理的...原创 2018-07-26 19:10:26 · 3567 阅读 · 0 评论 -
一种新的反爬虫思路
概述在面临一些爬虫爬取速度过快或者持续爬取的网站(一般都是大平台或者个别的敏感网站),那么你的爬虫极有可能会被封。就拿搜狗微信来说,这是个人真实面临的问题,最终通过一种方式解决了该问题。搜狗微信的反爬虫主要是验证码,当你访问时间过快,那么你一定会被封的,因为就算你在浏览器一直点击刷新,你也会被封的。但是搜狗微信有两种封锁爬虫的机制。第一,封cookie,当你在浏览器被封了之后,你只需要...原创 2018-07-19 23:05:22 · 1937 阅读 · 1 评论 -
脉脉模拟登陆
说明最近弄得最热的就是什么互联网寒冬,裁员等关键字,于是脉脉,领英的平台的热度就上去了,我就做了脉脉,领英的爬虫。操作脉脉模拟登陆难度不大,只是需要验证码处理我用的云打码,数字的加减法 1、通过抓包分析,登陆的地址为 https://acc.maimai.cn/login ,一个post请求。其中包含用户名,密码,验证码。其中验证码是有时候需要,有时候不需要。data...原创 2019-02-26 14:01:39 · 1600 阅读 · 0 评论