
Python爬虫
精神抖擞王大鹏
精神抖擞王大鹏
展开
-
百度新闻资讯类信息爬虫--统计一年内关键词新闻的条数
背景临时接了个小需求,通过百度词条搜索,来查找300个关键词,在一年内发布新闻的条数。最终效果实现如下:实现思路实现思路依然是:先根据多页的url,来找到规律,构建起一页的url;对单页的url解析,拿到其时间,按时间做dict求数目。同时注意如何判断最末页的条件。因为这里的末页改变后,页面仍然能响应出内容,因此我的解决方法是每次获取单页的第一条url,如果下一页的url与这条一致,那就属于到最后一页了,退出。先生成一年的date,然后拿date去取该日对应的资讯条数。结原创 2022-03-11 20:18:00 · 2618 阅读 · 15 评论 -
python爬虫-将headers+cookies构造标准格式dict
将headers构造为字典格式accept-encoding: gzip, deflate, braccept-language: zh-CN,zh;q=0.9referer: https://search.jd.com/search?keyword=%E8%B1%86%E6%B5%86%E6%9C%BA&enc=utf-8&qrst=1&rt=1&stop=...原创 2018-11-07 15:33:22 · 4160 阅读 · 0 评论 -
APP爬虫- 手机安装证书-解决SSL证书的移动端数据包问题
什么是SSL pinninghttps协议验证服务器身份的方式通常有三种,一是根据浏览器或者说操作系统(Android)自带的证书链;二是使用自签名证书;三是自签名证书加上SSL Pinning特性。第一种需要到知名证书机构购买证书,需要一定预算。第二种多见于内网使用。第三种在是安全性最高的,但是需要浏览器插件或客户端使用了SSL Pinning特性。Android应用程序在使用https协议...原创 2018-11-05 19:54:15 · 3714 阅读 · 0 评论 -
Python中request请求得到的response的属性问题
Python中request请求得到的response,即通过request得到的数据:import requestsresponse = requests.get("https://www.jd.com/")response 的属性返回状态码response.status_codehttp请求的返回状态,2XX 表示连接成功,3XX 表示跳转 ,4XX 客户端错误 , 500 ...原创 2018-11-05 20:16:12 · 34337 阅读 · 0 评论 -
Python爬虫-Scrapy基础
Scrapy的安装依照顺序安装如下依赖库,如下:wheelpip install wheellxmlhttp://www.lfd.uci.edu/~gohlke/pythonlibs/#lxmlPyOpensslhttps://pypi.python.org/pypi/pyOpenSSL#downloadsTwistedhttp://www.lfd.uci.edu/~gohlk...原创 2018-11-05 20:34:43 · 181 阅读 · 0 评论 -
Python-使用jmespath来格式化处理json数据
在遇到json的过程中,我们会经常去做取JSON中某个值的操作,如果是用get方法去取比较繁琐,这里不妨使用jmespath更便捷的方法来解决。下面通过代码来说明jmespath在python的使用:一.安装pip install jmespth二.查询一个key值source= { “a”: “foo”, “b”: "bar", "c": "baz" }...原创 2018-11-22 17:17:19 · 5390 阅读 · 1 评论 -
企查查网站信息爬取1.0版
1.0版本中,并未对验证码进行处理,在遇到验证码问题时,提示等待并手工解决import requestsfrom lxml import etreeimport pandas as pdimport time# 第一步:定义基本信息,url,headers,cookies# url = 'https://www.tianyancha.com/company/2358517846'c...原创 2018-11-24 16:01:57 · 5549 阅读 · 2 评论 -
Python爬虫-基于关键字品牌爬取京东商品完整信息(一)
京东爬取分为京东商品信息爬取及京东商品评论信息爬取,评论信息爬取参考:原创 2018-11-26 11:28:37 · 2937 阅读 · 3 评论 -
Python爬虫-爬取京东评论信息
京东商品爬虫包括爬取京东商品以及爬取京东商品评论,爬取京东商品信息可以参考:京东商品爬虫原创 2018-11-26 11:31:06 · 2725 阅读 · 2 评论 -
Python的request库应用
Requests是一常用的http请求库,它使用python语言编写,可以方便地发送http请求,以及方便地处理响应结果。1. 发送http请求为了使用requests,需要首先将requests库import进来:import requests然后,可以使用requests来发送http请求,例如发送get请求:r = requests.get('http://httpbin.or...原创 2018-11-26 19:15:14 · 7213 阅读 · 0 评论 -
Python爬取大乐透
因为笔者经常投彩票,于是做了一个玩,初版本只是爬取,效果如下:代码如下:import requestsfrom requests.exceptions import RequestExceptionfrom lxml import etreecount = 0def get_page(url): try: headers = { 'us...原创 2018-11-28 13:27:01 · 6772 阅读 · 1 评论 -
Scrapy debug方法
原创 2018-12-05 10:00:14 · 912 阅读 · 1 评论 -
淘宝手机端-selenium破解过程详解
淘宝手机端-selenium破解原创 2018-12-29 15:14:59 · 8311 阅读 · 12 评论 -
python的dict和json的区别
在工作中经常用到数据传输,而数据传输用的是json字符串,那么这个形如字典dict的json,和json又有什么区别呢?区别Python 的字典是一种数据结构,JSON 是一种数据格式。json 就是一个根据某种约定格式编写的纯字符串,不具备任何数据结构的特征。而 python 的字典的字符串表现形式的规则看上去和 json 类似,但是字典本身是一个完整的数据结构,实现了一切自身该有的算法...原创 2019-01-14 09:18:40 · 1988 阅读 · 0 评论 -
Boss直聘职位信息爬取+分析
BOSS直聘职位信息爬取分析原创 2019-03-06 19:29:32 · 2761 阅读 · 3 评论 -
Mac下的Python环境搭建开发常用总结(持续更新...)
1.更改pip至国内镜像,显著提升下载速度Mac系统下:可以在使用pip的时候加参数-i https://pypi.tuna.tsinghua.edu.cn/simple临时使用-&amp原创 2018-10-30 20:54:00 · 2568 阅读 · 0 评论 -
使用CrawlSpider轻松爬取巴比特网全站数据
鉴于森总之前给自己布置的一个小demo,趁晚上的时间总结一下,欢迎拍砖~ 当需要爬取全站的文章数据时,我们会想到用: 1.lxml解析器;2.用BeautifulSoup库提取;3.或者用Scrapy框架再用Selector选择器进行选择 但是这里有一个更好的爬取全站数据的方法,即使用CrawSpider; CrawSpider的使用特点在于它那强大的神器Li原创 2018-01-17 23:49:58 · 2986 阅读 · 5 评论 -
通过Kivy将Python文件打包成apk
一.前言Kivy 是一个开源的 Python 框架,用于快速开发应用,实现各种当前流行的用户界面,比如多点触摸等等。且Kivy 可以运行于 Windows, Linux,MacOS, Android, iOS 等当前绝大部分主流桌面/移动端操作系统。周日在配置Kivy时,教程繁多繁琐,让自己有些找不着北,挨个试后,经常在某处卡壳,屡屡碰壁,希望自己接下来的原创 2018-01-29 10:20:36 · 94557 阅读 · 21 评论 -
python通过adb爬取支付宝移动端账单信息
python通过adb连接爬取支付宝移动端的账单信息,操作过程如下:于是此文件就可以分解为如下四个主要功能:1.图片识别;2.模拟点击;3.模拟滑动;4.截图功能一.对账单详情页的处理: 对账单详情页截图后,再选择用图片分割,捕捉到3个截图,分别是:名称字段,账单数额字段;账单编号字段;二.对账单缩略页的处理: 如何处理账单的缩略页,开始时自己是想,传入一个基准,然后每次向下遍...原创 2018-04-02 15:13:13 · 4861 阅读 · 7 评论 -
爬虫的Http报头信息总结
常见的请求(Request)报头:请求报头的作用是允许客户端向服务器端传递请求的附加信息以及客户端自身的信息;Accept:用于指定客户端接受哪些类型的信息;Accept-Charset:用于指定客户端接受的字符集;Accept-Encoding:用于指定可接受的内容编码;Accept-Language:用于指定一种自然语言;Authorization:用于证明客户端有权查...原创 2018-08-27 23:21:49 · 707 阅读 · 0 评论 -
Python爬虫爬取猫眼电影风语咒影评评论信息
风语咒作为扛起国漫崛起的又一国漫之作,爬取风语咒猫眼的电影评论数据,以便对其评论做之后的数据分析。此次demo的流程图如下:一.找到猫眼电影中风语咒影评得json数据:l找出url后,往下滚动后,发现其并无评论页面得接口,这时通过f12启动手机版得调试模式,通过手机端得界面寻找此电影的评论的接口位置。刷新后如下:找到位置后,点开评论区,因为其中的评论采用的是js的方式加...原创 2018-08-23 16:01:01 · 5389 阅读 · 1 评论 -
将cookie处理为字典
def extract_cookies(cookie): """从浏览器或者request headers中拿到cookie字符串,提取为字典格式的cookies""" cookies = dict([l.split("=", 1) for l in cookie.split("; ")]) return cookies ...原创 2018-09-20 15:46:11 · 1586 阅读 · 0 评论 -
Python3进行URL解码及编码
from urllib.parse import unquote,quoteurl1 = "https://www.qichacha.com/search?key=河南正商河洛置业有限公司"url2 = "https://www.qichacha.com/search?key=%E6%B2%B3%E5%8D%97%E6%AD%A3%E5%95%86%E6%B2%B3%E6%B4%9B%E7...原创 2018-09-27 11:24:05 · 7326 阅读 · 0 评论 -
Fiddler配置及使用总结
1.单击某个消息右键,可以copy其响应的url;2.通过 ctrl+E 调出编码转换工具进行配置;3.点开TOOlS下的options选项对Fiddler进行设置:4.谷歌插件switchyomega安装配置:5.HTTP中的Inspectors的标签下的raw的格式下: 6.请求的断点设置:图形界面方式设置,命令行方式设置: 通过命令行的方式来实现请...原创 2018-09-29 23:23:26 · 2999 阅读 · 0 评论 -
Python正则表达式总结
| 模式| 描述||----|----|| \w | 匹配字母数字及下划线 || \W | 匹配非字母数字下划线 || \s | 匹配任意空白字符,等价于 [\t\n\r\f]. || \S | 匹配任意非空字符 || \d | 匹配任意数字,等价于 [0-9] || \D | 匹配任意非数字 || \A | 匹配字符串开始 || \Z | 匹配字符串结束,如果是存在换行,只匹...原创 2018-10-15 21:24:41 · 345 阅读 · 0 评论 -
Python爬取指定关键字的淘宝商品信息-Selenium
我们在新浪微博的抓取中,已经实现了ajax抓取的操作,详情请戳链接:https://blog.youkuaiyun.com/qq_29027865/article/details/83239316但是对于一些ajax获取的数据,有些接口比较复杂,包含动态的参数等,如果没有办法及时分析出参数的规律,那么此时使用Selenium来抓取也是一个不错的选择。一.搜索关键字(1)首先引入seleni...原创 2018-10-25 13:53:49 · 5269 阅读 · 3 评论 -
APP爬虫- 手机安装证书-设置fiddler抓取移动端数据包
使用python爬取app的数据,首先必须要做的是,使安卓手机或者安卓模拟器与你当前使用的电脑在同一个网段内,这样才可以使用Fiddler软件对app的数据包进行抓取捕获,下面就是app相关配置的详细步骤。一.手机端开启网络桥接:修改wlan高级设置:、第一个服务器主机名,通过ipconfig来得到:第二个端口号根据Fiddler的设置来进行配置:二.F...原创 2018-10-25 18:10:42 · 3549 阅读 · 0 评论 -
QQ空间留言板数据爬取1.0版本
正在总结,陆续补充原创 2018-10-23 10:52:25 · 993 阅读 · 0 评论 -
Python爬取考研张宇老师新浪微博-ajax加载
新浪微博中的数据采用Ajax加载进行显示,ajax加载即由JavaScript向服务器发送了一个请求来获取新的微博数据,并将其解析,最终将其渲染在网页中。ajax的分析方法:一.分析请求对于考研张宇老师的微博数据来说,一般情况下,首先通过chrom浏览器的开发者工具将页面切换至手机页面的方式,查看network中的xhr请求,可以观察到request headers,respo...原创 2018-10-21 11:18:34 · 1809 阅读 · 0 评论 -
Python爬取猫眼电影排行-xpath
抓取的网站如下:一.抓取单页内容html:利用requests请求目标站点,得到单个网页的html代码,返回结果,因为此网站没有登陆,因此在headers传入时比较简便,只用传入user_agent即可;中间加上一个方法,即如果返回响应的状态码为200时返回html,否则返回空;二.通过xpath来提取想要的数据首先确定想要的数据,在这里有:电影标题,电影主演,电影上映...原创 2018-10-21 19:31:53 · 2267 阅读 · 2 评论 -
Python爬取亚马逊商品列表-xpath(详情页爬取待更新...)
一.分析页面结构先行爬取首页内容的两个字段,一个是商品名称title以及价格price;二.分析页面的请求:首先按照PC端的url进行请求,结果未得到返回响应的response的数据,于是通过chrom浏览器切换至手机端的来获取响应:观察到其url是编码过的,对其进行urlencode解码后,得到url如下:再对其中的参数进行简化,方法是删去url中的部分参数,...原创 2018-10-21 21:01:51 · 4262 阅读 · 1 评论 -
Python 用hashlib来加密
python使用sh1加密算法,返回str加密后的字符串:import hashlibdef str_encrypt(str): """ 使用sha1加密算法,返回str加密后的字符串 """ sha = hashlib.sha1(str) encrypts = sha.hexdigest() return encrypts但在这样做原创 2018-01-22 03:34:02 · 608 阅读 · 0 评论