- 博客(55)
- 收藏
- 关注
原创 关于进行达梦数据库(DM)培训的总结,包括安装DM数据库软件时报错的解决方法
最近参加达梦数据库公司的DCA培训,学习有关达梦数据库(DM)相关的使用,现记录如下。文章内容包括DM的简介,到DM数据库软件的安装、卸载,DM数据库实例的创建以及一些关于DM数据库的使用操作,最后总结了如何用DM来进行数据库备份还原,最后通过配置定时作业来实现数据库的完全/增量备份。附赠上如何配置DM8的odbc配置源。此次培训让自己收获很多,弥补上了之前学习DM的一些漏洞。达梦公司安排的培训讲师,讲的很详细、回答问题很耐心。达梦数据库简介达梦数据库(Database Multimedia)是由武
2020-09-28 15:50:56
2924
原创 七麦数据网站的analysis参数解密
最近在爬取七麦网站的app信息,链接中的url参数中有个analysis参数需要解密,它的值是由动态js文件生成的,这就需要调试js代码了。上网找了很多的博客,都是看他们的教程自己搞定的。https://www.qimai.cn/rankhttps://mp.weixin.qq.com/s/1E_ONUnMwTFozd9-dB70Ywhttps://lengyue.me/index.php/...
2019-10-31 09:47:04
3792
5
原创 实时爬取斗鱼直播时的弹幕消息
最近想爬取实时消息,上网查了下,所以爬取斗鱼直播的弹幕消息做了下练习,这个开源的代码有很多,但是具体是怎么爬取到的还是要仔细地研究下。想爬取斗鱼的弹幕消息,按照常用的做法是打开网页用抓包工具抓包,但是用抓包工具抓到的信息没有找到有关弹幕信息的接口。上网查找抓取教程,了解到斗鱼弹幕是基于TCP协议的,用我个人的话来说就是要通过基于TCP/UDP服务器协议抓包。要想抓取弹幕信息就得,就得从斗鱼的服务...
2019-10-07 14:31:57
1788
4
原创 使用selenium识别滑动验证码(二)
上一篇文章是在开发者模式下驱动浏览器,在网上也看到了不同的方法,我验证了下,在此附上。我看到的是添加mitmdump代理驱动浏览器。技术参考来源:https://zhuanlan.zhihu.com/p/43581988https://blog.youkuaiyun.com/hihell/article/details/88648151如果想了解原理可以参考我附上的链接。按照要求首先修改mitmdum...
2019-09-17 21:36:50
841
1
原创 使用selenium识别滑动验证码(一)
验证码识别是常见的反爬手段之一,这次做了个滑动验证码的识别,在这个网站上做检测https://promotion.aliyun.com/ntms/act/captchaIntroAndDemo.htmlhttps://promotion.aliyun.com/ntms/act/captchaIntroAndDemo.html既然要滑动滑块那么就需要使用selenium模拟浏览了,seleniu...
2019-09-17 21:09:32
1979
原创 用mitmdump爬取“得到”app的新书top100信息,将结果保存到mongodb中
得到app的url解析出来的数据流不可以通过requests库发送请求解析出来,初始我通过构建get请求得不到任何的结果。下面是代码import jsonfrom mitmproxy import ctximport pymongourl = 'https://entree.igetget.com/ebook2/v1/ranklist/list?count=20&requestTy...
2019-09-07 17:13:04
408
3
原创 关于charles的external proxies eeror问题
昨天在使用charles进行抓包,发现一打开windows proxy电脑就无法上网,明明安装了证书,设置了信任证书还是不行,反复折腾了很久一直提示external proxies eeror有关的问题,提示说我的External Proxies有问题,刚开始我的设置是这样子的。感觉自己设置对了,但是这个是个错误的设置,意思大概是你的charles将截获到的数据输出给外部的代理服务器。我选择的是本...
2019-09-07 10:54:52
1421
原创 在pycharm中安装Pycrypto模块
在进行数据加解密时需要用到Pycrypto这个模块,在pycharm中安装Pycrypto模块时直接报错,回到cmd终端运行pip install pycrypto也报错,下载源码包解压后安装python setup.py install同样地报错,错误都是类似在这里插入代 C:\Program Files (x86)\Windows Kits\10\include\10.0.10240.0\u...
2019-09-02 15:25:29
3632
原创 用scrapy-redis分布式爬虫爬取房天下广州的租房信息
我做过用selenium爬取房天下的租房信息,也用过ajax分析接口爬取房天下的租房信息,但是前两次任务都是小规模地爬取,爬取的量比较小。所以这次准备大规模地爬取租房信息,使用scrapy-redis分布式爬虫来爬取,我只有一台电脑,但是我做了两个爬虫来同时爬取,一个从首页中爬取出子页面的链接,一个从子页面中爬虫租房的详细信息,在Pycharm下同时运行两个py文件。在settings.py文件...
2019-09-01 16:18:12
319
原创 在pycharm的Terminal终端运行.py文件显示python不是内部或外部的命令
相信有很多同学在使用pycharm的Terminal终端运行.py文件时遇到过显示python不是内部或外部的命令这样的错误。我也遇到过在网上找的教程说的很多但是具体的解决方法没有给出。今天终于找到这个问题的解决方法了。首先:你得知道你的pycharm用的Python解释器是哪个,找到你的Python目录,在file选项卡下的settings中点击查看。打开你的pycharm的Terminal终...
2019-09-01 15:15:35
18671
12
原创 爬取ajax数据,根据url却无法得到response信息的解决方法
房天下网站租房信息数据加载为动态js加载,分析页面的请求,找到ajax请求的url:https://m.fang.com/zf/?purpose=%D7%A1%D5%AC¬GetPurpose=1&city=%B9%E3%D6%DD&renttype=cz&c=zf&a=ajaxGetList&city=gz&r=0.00219856...
2019-09-01 10:53:58
3730
原创 用scrapy-redis分布式爬虫连接redis遇到auth认证的问题以及解决
用scrapy-redis进行分布式爬虫需要连接redis数据库,在settings方法中直接设置REDIS_URL='redis://127.0.0.1:6379’连接,其他的设置网上有很多教程,SCHEDULER = “scrapy_redis.scheduler.Scheduler” , DUPEFILTER_CLASS =“scrapy_redis.dupefilter.RFPDupe...
2019-08-30 18:37:47
661
原创 scrapy处理重定向
用scrapy爬取网页时出现302状态码,这是网页发生了重定向(在此不解释重定向),如何解决这个问题,只需在settings文件中设置MEDIA_ALLOW_REDIRECTS = True。我是在爬取文件时初始网页发生重定向无法正常下载,后来解决了这个问题,在下载的时候发生了文件保存错误,路径不对,如果任然使用scrapy自带的pipeline下载文件时一直报错。这时需要改写文件保存的路径就需...
2019-08-30 12:08:32
7764
原创 用scrapy自带的pipeline下载图片
前两天尝试用scrapy自身带的pipeline下载图片和文件,没有事先了解原理直接看别人的代码做例程,但是一直下载不成功,今天系统地学了下scrapy自带的pipeline是怎样工作的,所以在此记录下前面遇到的坑。首先说下下载文件和图片的两个pipeline: ‘scrapy.pipelines.images.ImagesPipeline’:1,和‘scrapy.pipelines.file...
2019-08-29 21:35:27
167
原创 爬取微博头条的数据并将数据保存到Mysql和mongodb的数据库中
分析微博中属于头条的那一栏数据为ajax数据,分析接口获取动态加载页面的链接,分析json数据从而拿到每条数据的子链接,进入二级爬取页面获取待爬取的数据。import requestsimport jsonimport refrom wenben import SaveMysqlModule,mongoSaveModule#wenben是一个py文件,我自己写的sql和mondb保存的模...
2019-08-28 09:30:56
817
原创 模拟登录人人网
两种方式模拟登录人人网,在此记录下import requestss = requests.session()post_url = 'http://www.renren.com/ajaxLogin/login?1=1&uniqueTimestamp=201975959516'headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; ...
2019-08-16 10:03:30
26318
原创 爬取boss直聘上的工作岗位信息
爬取boss直聘上的“python爬虫”的岗位信息,在点击下一页的内容时出现如下错误selenium.common.exceptions.WebDriverException: Message: unknown error: Element <a href="/c100010000/?query=python%E7%88%AC%E8%99%AB&page=2" ka="pag...
2019-08-13 15:59:48
1235
7
原创 用selenium爬取拉钩网的职位信息
拉钩网的职位信息数据为ajax数据,抓取ajax数据可以直接分析数据的url接口,但是直接用requests库发送url请求会被拉钩网识别出来。1.可以通过session保存会话信息模拟请求,这时可以爬取部分信息数据,但是仍然不能爬取大量的或者完整的数据2.用selenium模拟浏览器爬取拉钩网的数据,可以完整的爬取本文拟爬取的url代码1:import requestsfrom lxml ...
2019-08-13 12:43:37
386
原创 多线程爬取百思不得姐的内涵段子,并将内容保存到csv文件中
import requestsimport csvfrom lxml import etreeimport threadingfrom queue import Queueflock = threading.Lock()#创建一个锁对象items = []class Save_data(threading.Thread): def __init__(self,url_queu...
2019-08-11 12:42:29
453
原创 使用多线程爬取静态表情图
import requestsfrom lxml import etreeimport osimport refrom queue import Queueimport threadingclass Crawl_url(threading.Thread): def __init__(self,page_queue,img_queue): super().__i...
2019-08-10 21:08:05
133
原创 爬取豆瓣电影正在上映的电影,将爬取下的内容保存到mysql中
本实战主要是为了进一步熟悉xpath的使用,再者就是将数据保存到Mysql数据库中,学习使用Mysql.import pymysqlimport requestsfrom lxml import etree#创建数据库def connectDB():#在此处我的数据库密码password为空,如果用到此代码需要将password设置为自己的密码 db = pymysql.co...
2019-07-23 12:37:44
508
原创 爬取知乎内容,并将内容保存到mongodb数据库中
爬取知乎我关注的一个公众号的动态,它的抓取需要模拟ajax请求,,将抓取到的内容保存到mongodb的数据库中# https://www.zhihu.com/api/v4/members/sgai/activities?limit=7&session_id=1133718782936719360&after_id=1558529951&desktop=Truefrom ...
2019-07-14 15:32:19
2613
原创 爬取图书,将图书的信息保存到csv文件中
爬取http://www.allitebooks.org/这个网页的图书,将图书的信息保存到csv文件中,解析数据时分别使用BeautifulSoup,正则表达式和Xpath解析,共两份代码import requestsfrom bs4 import BeautifulSoupimport jsonimport csvimport reitems = []class BookCraw...
2019-07-12 10:49:57
1678
原创 用selenium+ajax抓取数据
上一篇文章只用了selenium模拟浏览器加载数据,实际上爬取网页的数据是ajax请求得到的,这次用ajax请求加载原始网页的数据,再通过浏览器模拟加载二级网页的视频,真正的视频下载可以通过构造requests请求爬取视频源代码。#通过ajax发送请求加载网页import requestsimport jsonfrom bs4 import BeautifulSoupfrom selen...
2019-07-02 12:06:52
3320
原创 用selenium模拟浏览器抓取小视频
前面抓取得数据主要是图片,文字等信息,一直没有抓取过视频,这次用selenium模拟浏览器抓取小视频,与前面不同的是,视频抓取需要进入三级网页,因为视频源码是通过浏览器动态加载js文件得到的,所以使用浏览器打开网页抓取数据。from bs4 import BeautifulSoupimport timefrom selenium import webdriverfrom selenium....
2019-07-02 11:56:45
1172
原创 用pytesseract实现图片验证码模拟登录
有些网站登录需要输入图片验证码,创建会话session将登录时需要提交的表单和图片信息抓取,从而实现手动验证码登录。#图片验证码验证登录,首先进去登录的界面,将验证码图片下载下来,因为验证码是会随时变化的,随着cookies信息变化而变化,每次提交表单信息的时候需要注意表单里面的信息是否改变,# 表单里的信息可以在源网页代码中找到,将变化的表单值填入新的表单数据中,优于验证码每次访问页面都会改...
2019-06-30 21:52:08
355
原创 用selenium模拟浏览器爬取淘宝订单信息
用selenium模拟浏览器登录淘宝爬取自己购买商品的订单信息,代码不是十分完善,但是亲测可用,后期还可以进一步优化。链接:https://pan.baidu.com/s/1aGwWCFaWPfOUP54rwraVjA提取码:2884复制这段内容后打开百度网盘手机App,操作更方便哦...
2019-06-30 21:04:08
1266
原创 用selenium模拟浏览器爬取租房信息
用selenium模拟浏览器,爬取房天下网站下广州的的租房信息,并将爬取到的房源图片和房源信息保存到文件夹中。链接:https://pan.baidu.com/s/1zIhbhxPVp0b5XNUcqIPaQA提取码:yx13复制这段内容后打开百度网盘手机App,操作更方便哦...
2019-06-30 21:01:38
296
原创 在pycharm中用正则表达式对一串字符分割
在爬虫时,经常需要用到浏览器或者抓包工具抓取到的表单信息,而这些表单信息有时过于冗长,人为地修改为字典格式的表单太过于费时,而且容易出错。其实在pycharm中可以用正则替换将表单信息快速地转变为字典形式。将表单数据复制到文件中,选中全部的字符串,按ctrl+R键,打开正则替换的窗口,选中途中的Regex选项框在上面小框中输入正则表达式,在下面小框中输入要替换的内容。...
2019-06-30 15:48:30
865
原创 用Cookie保持会话登录信息,模拟登录
有些网站访问需要先登录,而在爬虫时每次都登录都提交信息是比较麻烦的,模拟浏览器在用户登录后保存登录后的用户信息,选择用cookie会话保存登录人人网的信息。先用浏览器登录人人网,用抓包工具Fiddle抓取登录时提交的表单信息,将发送请求的form_data信息拿出来,放在代码中实现登录。用创建的会话模拟发送post请求,验证会话是否创建成功import requestss = reques...
2019-06-29 09:26:42
766
原创 用selenium模拟浏览器登录淘宝识别滑动验证码
用selenium模拟浏览器登录淘宝,使用账号密码的方式登录淘宝,但是在登录的时候遇到需要滑动验证,使用selenium模拟点击滑块,滑动验证码完成登录。本文的代码现测可用。做个记录,方便以后查看。链接:https://pan.baidu.com/s/1-chPzmZ5RxpCFfO2g8LNyg提取码:e4sd复制这段内容后打开百度网盘手机App,操作更方便哦...
2019-06-27 19:51:50
3056
原创 Chrome版本下载
最近需要用较老版本的谷歌浏览器,推荐一个下载网站,里面推荐的版本很多,望能帮助有需要的人。https://www.chromedownloads.net/为站长打Call,太感谢站长了...
2019-06-18 10:27:56
295
原创 爬虫淘宝遇到密码登录
最近在爬取淘宝中的相关信息,遇到登录界面现给出两种方法解决登录问题,现测可用。因为cookie可以用来保存登录的信息,故通过保存cookie信息来模拟登录。打开淘宝进入登陆页面,打开开发者工具切换到Network选项,监听log。把账号和密码填入选型款,再点击登陆,回到Network选项,找到含有login的选项卡,可能有多个login选项,找到请求为post的那个网页,选中headers下的r...
2019-06-17 14:54:49
3417
原创 用xpath下载图片,代码简单但是文章里面提到一个点需要注意
下载图片,保存到文件中链接:https://pan.baidu.com/s/1ZBLfTFox2yCd168unUvwvA提取码:gh05复制这段内容后打开百度网盘手机App,操作更方便哦
2019-06-14 12:32:10
157
原创 使用xpath爬取小说
使用xpath路径方法爬取小说的简介,主要目的是为了熟悉xpath的使用方法链接:https://pan.baidu.com/s/108ZB2l_5OalvFPoqCjMNZw提取码:afx6复制这段内容后打开百度网盘手机App,操作更方便哦...
2019-06-13 21:58:49
1200
原创 用正则表达式爬取糗图的图片和一些励志语句
用正则表达式爬取图片并保存到文件中,爬取一些励志名言保存到.txt文件中链接:https://pan.baidu.com/s/1YUMDI1iD_YdkrXDKfNbVGQ提取码:n87f链接:https://pan.baidu.com/s/1oZPW6Gsrb5OFr-LfhSokOA提取码:fnpy复制这段内容后打开百度网盘手机App,操作更方便哦...
2019-06-13 10:15:00
262
原创 爬取智联招聘上的求职信息
爬虫爬取智联招聘上的求职信息,并将爬取的内容保存到文件中链接:https://pan.baidu.com/s/1p4gn2enm_WnyqK_3kjnoaQ提取码:prdb复制这段内容后打开百度网盘手机App,操作更方便哦...
2019-06-13 10:11:50
1629
3
原创 EMD分解工具箱下载
https://pan.baidu.com/s/1Mu2j-fRziiuYdtQMr2vX0w1xok此链接可以下载EMD分解的两个工具箱。https://pan.baidu.com/s/1EzvaHQ2wgjGk1k6g4Y-Ngw2gd8这个链接可以下载EMD源码包。将下载的两个工具箱放入源码工具包中,将文件一起放在MATLAB的toolbox目录下,再添加文件的路径,在matla...
2019-06-05 20:55:00
1697
1
原创 使用pyspider出现ssl证书错误解决方法
出现ssl证书找不到的错误,只需要在self.crawl()方法中添加validate_cert=False,但是有一点得注意,Handler方法中,不止一个self.crawl()方法,应在全文中的self.crawl()方法中都添加validate_cert=False....
2019-05-28 10:59:05
678
原创 在win10上安装pyspider
在cmd终端直接pip install pyspider出现如下错误需要安装两个工具包https://www.lfd.uci.edu/~gohlke/pythonlibs/#pycurl,在这个网站可以找到工具包,找到自己电脑对用对应的版本下载到自己python对应的库文件下,要安装下载的文件包,两个文件配置好后,再pip install pyspider即可安装。安装完pyspid...
2019-05-27 22:56:31
852
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人