
Python
wg5foc08
这个作者很懒,什么都没留下…
展开
-
七麦数据网站的analysis参数解密
最近在爬取七麦网站的app信息,链接中的url参数中有个analysis参数需要解密,它的值是由动态js文件生成的,这就需要调试js代码了。上网找了很多的博客,都是看他们的教程自己搞定的。https://www.qimai.cn/rankhttps://mp.weixin.qq.com/s/1E_ONUnMwTFozd9-dB70Ywhttps://lengyue.me/index.php/...原创 2019-10-31 09:47:04 · 3793 阅读 · 5 评论 -
用scrapy-redis分布式爬虫连接redis遇到auth认证的问题以及解决
用scrapy-redis进行分布式爬虫需要连接redis数据库,在settings方法中直接设置REDIS_URL='redis://127.0.0.1:6379’连接,其他的设置网上有很多教程,SCHEDULER = “scrapy_redis.scheduler.Scheduler” , DUPEFILTER_CLASS =“scrapy_redis.dupefilter.RFPDupe...原创 2019-08-30 18:37:47 · 662 阅读 · 0 评论 -
爬取ajax数据,根据url却无法得到response信息的解决方法
房天下网站租房信息数据加载为动态js加载,分析页面的请求,找到ajax请求的url:https://m.fang.com/zf/?purpose=%D7%A1%D5%AC¬GetPurpose=1&city=%B9%E3%D6%DD&renttype=cz&c=zf&a=ajaxGetList&city=gz&r=0.00219856...原创 2019-09-01 10:53:58 · 3730 阅读 · 0 评论 -
在pycharm的Terminal终端运行.py文件显示python不是内部或外部的命令
相信有很多同学在使用pycharm的Terminal终端运行.py文件时遇到过显示python不是内部或外部的命令这样的错误。我也遇到过在网上找的教程说的很多但是具体的解决方法没有给出。今天终于找到这个问题的解决方法了。首先:你得知道你的pycharm用的Python解释器是哪个,找到你的Python目录,在file选项卡下的settings中点击查看。打开你的pycharm的Terminal终...原创 2019-09-01 15:15:35 · 18672 阅读 · 12 评论 -
用scrapy-redis分布式爬虫爬取房天下广州的租房信息
我做过用selenium爬取房天下的租房信息,也用过ajax分析接口爬取房天下的租房信息,但是前两次任务都是小规模地爬取,爬取的量比较小。所以这次准备大规模地爬取租房信息,使用scrapy-redis分布式爬虫来爬取,我只有一台电脑,但是我做了两个爬虫来同时爬取,一个从首页中爬取出子页面的链接,一个从子页面中爬虫租房的详细信息,在Pycharm下同时运行两个py文件。在settings.py文件...原创 2019-09-01 16:18:12 · 320 阅读 · 0 评论 -
关于charles的external proxies eeror问题
昨天在使用charles进行抓包,发现一打开windows proxy电脑就无法上网,明明安装了证书,设置了信任证书还是不行,反复折腾了很久一直提示external proxies eeror有关的问题,提示说我的External Proxies有问题,刚开始我的设置是这样子的。感觉自己设置对了,但是这个是个错误的设置,意思大概是你的charles将截获到的数据输出给外部的代理服务器。我选择的是本...原创 2019-09-07 10:54:52 · 1422 阅读 · 0 评论 -
用mitmdump爬取“得到”app的新书top100信息,将结果保存到mongodb中
得到app的url解析出来的数据流不可以通过requests库发送请求解析出来,初始我通过构建get请求得不到任何的结果。下面是代码import jsonfrom mitmproxy import ctximport pymongourl = 'https://entree.igetget.com/ebook2/v1/ranklist/list?count=20&requestTy...原创 2019-09-07 17:13:04 · 408 阅读 · 3 评论 -
使用selenium识别滑动验证码(一)
验证码识别是常见的反爬手段之一,这次做了个滑动验证码的识别,在这个网站上做检测https://promotion.aliyun.com/ntms/act/captchaIntroAndDemo.htmlhttps://promotion.aliyun.com/ntms/act/captchaIntroAndDemo.html既然要滑动滑块那么就需要使用selenium模拟浏览了,seleniu...原创 2019-09-17 21:09:32 · 1979 阅读 · 0 评论 -
scrapy处理重定向
用scrapy爬取网页时出现302状态码,这是网页发生了重定向(在此不解释重定向),如何解决这个问题,只需在settings文件中设置MEDIA_ALLOW_REDIRECTS = True。我是在爬取文件时初始网页发生重定向无法正常下载,后来解决了这个问题,在下载的时候发生了文件保存错误,路径不对,如果任然使用scrapy自带的pipeline下载文件时一直报错。这时需要改写文件保存的路径就需...原创 2019-08-30 12:08:32 · 7764 阅读 · 0 评论 -
用scrapy自带的pipeline下载图片
前两天尝试用scrapy自身带的pipeline下载图片和文件,没有事先了解原理直接看别人的代码做例程,但是一直下载不成功,今天系统地学了下scrapy自带的pipeline是怎样工作的,所以在此记录下前面遇到的坑。首先说下下载文件和图片的两个pipeline: ‘scrapy.pipelines.images.ImagesPipeline’:1,和‘scrapy.pipelines.file...原创 2019-08-29 21:35:27 · 167 阅读 · 0 评论 -
关于python一些常用库的使用推荐
https://www.cnblogs.com/yufeihlf/p/6179547.htmlPython OS模块的用法http://www.cnblogs.com/superxuezhazha/p/5714970.htmlPython map函数的用法https://www.cnblogs.com/lonkiss/p/understanding-python-reduce-functi...转载 2019-03-21 09:30:01 · 144 阅读 · 0 评论 -
爬取豆瓣电影正在上映的电影,将爬取下的内容保存到mysql中
本实战主要是为了进一步熟悉xpath的使用,再者就是将数据保存到Mysql数据库中,学习使用Mysql.import pymysqlimport requestsfrom lxml import etree#创建数据库def connectDB():#在此处我的数据库密码password为空,如果用到此代码需要将password设置为自己的密码 db = pymysql.co...原创 2019-07-23 12:37:44 · 510 阅读 · 0 评论 -
用selenium爬取拉钩网的职位信息
拉钩网的职位信息数据为ajax数据,抓取ajax数据可以直接分析数据的url接口,但是直接用requests库发送url请求会被拉钩网识别出来。1.可以通过session保存会话信息模拟请求,这时可以爬取部分信息数据,但是仍然不能爬取大量的或者完整的数据2.用selenium模拟浏览器爬取拉钩网的数据,可以完整的爬取本文拟爬取的url代码1:import requestsfrom lxml ...原创 2019-08-13 12:43:37 · 387 阅读 · 0 评论 -
爬取boss直聘上的工作岗位信息
爬取boss直聘上的“python爬虫”的岗位信息,在点击下一页的内容时出现如下错误selenium.common.exceptions.WebDriverException: Message: unknown error: Element <a href="/c100010000/?query=python%E7%88%AC%E8%99%AB&page=2" ka="pag...原创 2019-08-13 15:59:48 · 1235 阅读 · 7 评论 -
使用多线程爬取静态表情图
import requestsfrom lxml import etreeimport osimport refrom queue import Queueimport threadingclass Crawl_url(threading.Thread): def __init__(self,page_queue,img_queue): super().__i...原创 2019-08-10 21:08:05 · 133 阅读 · 0 评论 -
多线程爬取百思不得姐的内涵段子,并将内容保存到csv文件中
import requestsimport csvfrom lxml import etreeimport threadingfrom queue import Queueflock = threading.Lock()#创建一个锁对象items = []class Save_data(threading.Thread): def __init__(self,url_queu...原创 2019-08-11 12:42:29 · 453 阅读 · 0 评论 -
模拟登录人人网
两种方式模拟登录人人网,在此记录下import requestss = requests.session()post_url = 'http://www.renren.com/ajaxLogin/login?1=1&uniqueTimestamp=201975959516'headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; ...原创 2019-08-16 10:03:30 · 26320 阅读 · 0 评论 -
爬取微博头条的数据并将数据保存到Mysql和mongodb的数据库中
分析微博中属于头条的那一栏数据为ajax数据,分析接口获取动态加载页面的链接,分析json数据从而拿到每条数据的子链接,进入二级爬取页面获取待爬取的数据。import requestsimport jsonimport refrom wenben import SaveMysqlModule,mongoSaveModule#wenben是一个py文件,我自己写的sql和mondb保存的模...原创 2019-08-28 09:30:56 · 817 阅读 · 0 评论 -
关于学习网络爬虫的一点建议
学习爬虫前的技术准备(一). Python基础语法:基础语法﹑运算符﹑数据类型﹑流程控制﹑函数﹑对象模块﹑文件操作﹑多线程﹑网络编程…等(二).W3C标准:HTML﹑CSS﹑JavaScript﹑Xpath﹑JSON(三).HTTP标准HTTP的请求过程﹑请求方式﹑状态码含义﹑头部信息以及Cookie状态管理(四).数据库MySQL﹑ MongoDB ﹑Redis…网络爬虫使用的技术… ...原创 2019-03-21 09:17:23 · 321 阅读 · 0 评论