自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

wg5foc08的博客

原创关于进行达梦数据库（DM）培训的总结，包括安装DM数据库软件时报错的解决方法

最近参加达梦数据库公司的DCA培训，学习有关达梦数据库（DM）相关的使用，现记录如下。文章内容包括DM的简介，到DM数据库软件的安装、卸载，DM数据库实例的创建以及一些关于DM数据库的使用操作，最后总结了如何用DM来进行数据库备份还原，最后通过配置定时作业来实现数据库的完全/增量备份。附赠上如何配置DM8的odbc配置源。此次培训让自己收获很多，弥补上了之前学习DM的一些漏洞。达梦公司安排的培训讲师，讲的很详细、回答问题很耐心。达梦数据库简介达梦数据库（Database Multimedia）是由武

2020-09-28 15:50:56 2924

原创七麦数据网站的analysis参数解密

最近在爬取七麦网站的app信息，链接中的url参数中有个analysis参数需要解密，它的值是由动态js文件生成的，这就需要调试js代码了。上网找了很多的博客，都是看他们的教程自己搞定的。https://www.qimai.cn/rankhttps://mp.weixin.qq.com/s/1E_ONUnMwTFozd9-dB70Ywhttps://lengyue.me/index.php/...

2019-10-31 09:47:04 3792 5

原创实时爬取斗鱼直播时的弹幕消息

最近想爬取实时消息，上网查了下，所以爬取斗鱼直播的弹幕消息做了下练习，这个开源的代码有很多，但是具体是怎么爬取到的还是要仔细地研究下。想爬取斗鱼的弹幕消息，按照常用的做法是打开网页用抓包工具抓包，但是用抓包工具抓到的信息没有找到有关弹幕信息的接口。上网查找抓取教程，了解到斗鱼弹幕是基于TCP协议的，用我个人的话来说就是要通过基于TCP/UDP服务器协议抓包。要想抓取弹幕信息就得，就得从斗鱼的服务...

2019-10-07 14:31:57 1788 4

原创使用selenium识别滑动验证码（二）

上一篇文章是在开发者模式下驱动浏览器，在网上也看到了不同的方法，我验证了下，在此附上。我看到的是添加mitmdump代理驱动浏览器。技术参考来源：https://zhuanlan.zhihu.com/p/43581988https://blog.youkuaiyun.com/hihell/article/details/88648151如果想了解原理可以参考我附上的链接。按照要求首先修改mitmdum...

2019-09-17 21:36:50 841 1

原创使用selenium识别滑动验证码（一）

验证码识别是常见的反爬手段之一，这次做了个滑动验证码的识别，在这个网站上做检测https://promotion.aliyun.com/ntms/act/captchaIntroAndDemo.htmlhttps://promotion.aliyun.com/ntms/act/captchaIntroAndDemo.html既然要滑动滑块那么就需要使用selenium模拟浏览了，seleniu...

2019-09-17 21:09:32 1979

原创用mitmdump爬取“得到”app的新书top100信息，将结果保存到mongodb中

得到app的url解析出来的数据流不可以通过requests库发送请求解析出来，初始我通过构建get请求得不到任何的结果。下面是代码import jsonfrom mitmproxy import ctximport pymongourl = 'https://entree.igetget.com/ebook2/v1/ranklist/list?count=20&requestTy...

2019-09-07 17:13:04 408 3

原创关于charles的external proxies eeror问题

昨天在使用charles进行抓包，发现一打开windows proxy电脑就无法上网，明明安装了证书，设置了信任证书还是不行，反复折腾了很久一直提示external proxies eeror有关的问题，提示说我的External Proxies有问题，刚开始我的设置是这样子的。感觉自己设置对了，但是这个是个错误的设置，意思大概是你的charles将截获到的数据输出给外部的代理服务器。我选择的是本...

2019-09-07 10:54:52 1421

原创在pycharm中安装Pycrypto模块

在进行数据加解密时需要用到Pycrypto这个模块，在pycharm中安装Pycrypto模块时直接报错，回到cmd终端运行pip install pycrypto也报错，下载源码包解压后安装python setup.py install同样地报错，错误都是类似在这里插入代 C:\Program Files (x86)\Windows Kits\10\include\10.0.10240.0\u...

2019-09-02 15:25:29 3632

原创用scrapy-redis分布式爬虫爬取房天下广州的租房信息

我做过用selenium爬取房天下的租房信息，也用过ajax分析接口爬取房天下的租房信息，但是前两次任务都是小规模地爬取，爬取的量比较小。所以这次准备大规模地爬取租房信息，使用scrapy-redis分布式爬虫来爬取，我只有一台电脑，但是我做了两个爬虫来同时爬取，一个从首页中爬取出子页面的链接，一个从子页面中爬虫租房的详细信息，在Pycharm下同时运行两个py文件。在settings.py文件...

2019-09-01 16:18:12 319

原创在pycharm的Terminal终端运行.py文件显示python不是内部或外部的命令

相信有很多同学在使用pycharm的Terminal终端运行.py文件时遇到过显示python不是内部或外部的命令这样的错误。我也遇到过在网上找的教程说的很多但是具体的解决方法没有给出。今天终于找到这个问题的解决方法了。首先：你得知道你的pycharm用的Python解释器是哪个，找到你的Python目录，在file选项卡下的settings中点击查看。打开你的pycharm的Terminal终...

2019-09-01 15:15:35 18671 12

原创爬取ajax数据，根据url却无法得到response信息的解决方法

房天下网站租房信息数据加载为动态js加载，分析页面的请求，找到ajax请求的url：https://m.fang.com/zf/?purpose=%D7%A1%D5%AC&notGetPurpose=1&city=%B9%E3%D6%DD&renttype=cz&c=zf&a=ajaxGetList&city=gz&r=0.00219856...

2019-09-01 10:53:58 3730

原创用scrapy-redis分布式爬虫连接redis遇到auth认证的问题以及解决

用scrapy-redis进行分布式爬虫需要连接redis数据库，在settings方法中直接设置REDIS_URL='redis://127.0.0.1:6379’连接，其他的设置网上有很多教程，SCHEDULER = “scrapy_redis.scheduler.Scheduler” ， DUPEFILTER_CLASS =“scrapy_redis.dupefilter.RFPDupe...

2019-08-30 18:37:47 661

原创 scrapy处理重定向

用scrapy爬取网页时出现302状态码，这是网页发生了重定向（在此不解释重定向），如何解决这个问题，只需在settings文件中设置MEDIA_ALLOW_REDIRECTS = True。我是在爬取文件时初始网页发生重定向无法正常下载，后来解决了这个问题，在下载的时候发生了文件保存错误，路径不对，如果任然使用scrapy自带的pipeline下载文件时一直报错。这时需要改写文件保存的路径就需...

2019-08-30 12:08:32 7764

原创用scrapy自带的pipeline下载图片

前两天尝试用scrapy自身带的pipeline下载图片和文件，没有事先了解原理直接看别人的代码做例程，但是一直下载不成功，今天系统地学了下scrapy自带的pipeline是怎样工作的，所以在此记录下前面遇到的坑。首先说下下载文件和图片的两个pipeline: ‘scrapy.pipelines.images.ImagesPipeline’:1,和‘scrapy.pipelines.file...

2019-08-29 21:35:27 167

原创爬取微博头条的数据并将数据保存到Mysql和mongodb的数据库中

分析微博中属于头条的那一栏数据为ajax数据，分析接口获取动态加载页面的链接，分析json数据从而拿到每条数据的子链接，进入二级爬取页面获取待爬取的数据。import requestsimport jsonimport refrom wenben import SaveMysqlModule,mongoSaveModule#wenben是一个py文件，我自己写的sql和mondb保存的模...

2019-08-28 09:30:56 817

原创模拟登录人人网

两种方式模拟登录人人网，在此记录下import requestss = requests.session()post_url = 'http://www.renren.com/ajaxLogin/login?1=1&uniqueTimestamp=201975959516'headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; ...

2019-08-16 10:03:30 26318

原创爬取boss直聘上的工作岗位信息

爬取boss直聘上的“python爬虫”的岗位信息，在点击下一页的内容时出现如下错误selenium.common.exceptions.WebDriverException: Message: unknown error: Element <a href="/c100010000/?query=python%E7%88%AC%E8%99%AB&page=2" ka="pag...

2019-08-13 15:59:48 1235 7

原创用selenium爬取拉钩网的职位信息

拉钩网的职位信息数据为ajax数据，抓取ajax数据可以直接分析数据的url接口，但是直接用requests库发送url请求会被拉钩网识别出来。1.可以通过session保存会话信息模拟请求，这时可以爬取部分信息数据，但是仍然不能爬取大量的或者完整的数据2.用selenium模拟浏览器爬取拉钩网的数据，可以完整的爬取本文拟爬取的url代码1：import requestsfrom lxml ...

2019-08-13 12:43:37 386

原创多线程爬取百思不得姐的内涵段子，并将内容保存到csv文件中

import requestsimport csvfrom lxml import etreeimport threadingfrom queue import Queueflock = threading.Lock()#创建一个锁对象items = []class Save_data(threading.Thread): def __init__(self,url_queu...

2019-08-11 12:42:29 453

原创使用多线程爬取静态表情图

import requestsfrom lxml import etreeimport osimport refrom queue import Queueimport threadingclass Crawl_url(threading.Thread): def __init__(self,page_queue,img_queue): super().__i...

2019-08-10 21:08:05 133

原创爬取豆瓣电影正在上映的电影，将爬取下的内容保存到mysql中

本实战主要是为了进一步熟悉xpath的使用，再者就是将数据保存到Mysql数据库中，学习使用Mysql.import pymysqlimport requestsfrom lxml import etree#创建数据库def connectDB():#在此处我的数据库密码password为空，如果用到此代码需要将password设置为自己的密码 db = pymysql.co...

2019-07-23 12:37:44 508

原创爬取知乎内容，并将内容保存到mongodb数据库中

爬取知乎我关注的一个公众号的动态，它的抓取需要模拟ajax请求，，将抓取到的内容保存到mongodb的数据库中# https://www.zhihu.com/api/v4/members/sgai/activities?limit=7&session_id=1133718782936719360&after_id=1558529951&desktop=Truefrom ...

2019-07-14 15:32:19 2613

原创爬取图书，将图书的信息保存到csv文件中

爬取http://www.allitebooks.org/这个网页的图书，将图书的信息保存到csv文件中，解析数据时分别使用BeautifulSoup,正则表达式和Xpath解析，共两份代码import requestsfrom bs4 import BeautifulSoupimport jsonimport csvimport reitems = []class BookCraw...

2019-07-12 10:49:57 1678

原创用selenium+ajax抓取数据

上一篇文章只用了selenium模拟浏览器加载数据，实际上爬取网页的数据是ajax请求得到的，这次用ajax请求加载原始网页的数据，再通过浏览器模拟加载二级网页的视频，真正的视频下载可以通过构造requests请求爬取视频源代码。#通过ajax发送请求加载网页import requestsimport jsonfrom bs4 import BeautifulSoupfrom selen...

2019-07-02 12:06:52 3320

原创用selenium模拟浏览器抓取小视频

前面抓取得数据主要是图片，文字等信息，一直没有抓取过视频，这次用selenium模拟浏览器抓取小视频，与前面不同的是，视频抓取需要进入三级网页，因为视频源码是通过浏览器动态加载js文件得到的，所以使用浏览器打开网页抓取数据。from bs4 import BeautifulSoupimport timefrom selenium import webdriverfrom selenium....

2019-07-02 11:56:45 1172

原创用pytesseract实现图片验证码模拟登录

有些网站登录需要输入图片验证码，创建会话session将登录时需要提交的表单和图片信息抓取，从而实现手动验证码登录。#图片验证码验证登录，首先进去登录的界面，将验证码图片下载下来,因为验证码是会随时变化的，随着cookies信息变化而变化,每次提交表单信息的时候需要注意表单里面的信息是否改变，# 表单里的信息可以在源网页代码中找到，将变化的表单值填入新的表单数据中，优于验证码每次访问页面都会改...

2019-06-30 21:52:08 355

原创用selenium模拟浏览器爬取淘宝订单信息

用selenium模拟浏览器登录淘宝爬取自己购买商品的订单信息，代码不是十分完善，但是亲测可用，后期还可以进一步优化。链接：https://pan.baidu.com/s/1aGwWCFaWPfOUP54rwraVjA提取码：2884复制这段内容后打开百度网盘手机App，操作更方便哦...

2019-06-30 21:04:08 1266

原创用selenium模拟浏览器爬取租房信息

用selenium模拟浏览器，爬取房天下网站下广州的的租房信息，并将爬取到的房源图片和房源信息保存到文件夹中。链接：https://pan.baidu.com/s/1zIhbhxPVp0b5XNUcqIPaQA提取码：yx13复制这段内容后打开百度网盘手机App，操作更方便哦...

2019-06-30 21:01:38 296

原创在pycharm中用正则表达式对一串字符分割

在爬虫时，经常需要用到浏览器或者抓包工具抓取到的表单信息，而这些表单信息有时过于冗长，人为地修改为字典格式的表单太过于费时，而且容易出错。其实在pycharm中可以用正则替换将表单信息快速地转变为字典形式。将表单数据复制到文件中，选中全部的字符串，按ctrl+R键，打开正则替换的窗口，选中途中的Regex选项框在上面小框中输入正则表达式，在下面小框中输入要替换的内容。...

2019-06-30 15:48:30 865

原创用Cookie保持会话登录信息，模拟登录

有些网站访问需要先登录，而在爬虫时每次都登录都提交信息是比较麻烦的，模拟浏览器在用户登录后保存登录后的用户信息，选择用cookie会话保存登录人人网的信息。先用浏览器登录人人网，用抓包工具Fiddle抓取登录时提交的表单信息，将发送请求的form_data信息拿出来，放在代码中实现登录。用创建的会话模拟发送post请求，验证会话是否创建成功import requestss = reques...

2019-06-29 09:26:42 766

原创用selenium模拟浏览器登录淘宝识别滑动验证码

用selenium模拟浏览器登录淘宝，使用账号密码的方式登录淘宝，但是在登录的时候遇到需要滑动验证，使用selenium模拟点击滑块，滑动验证码完成登录。本文的代码现测可用。做个记录，方便以后查看。链接：https://pan.baidu.com/s/1-chPzmZ5RxpCFfO2g8LNyg提取码：e4sd复制这段内容后打开百度网盘手机App，操作更方便哦...

2019-06-27 19:51:50 3056

原创 Chrome版本下载

最近需要用较老版本的谷歌浏览器，推荐一个下载网站，里面推荐的版本很多，望能帮助有需要的人。https://www.chromedownloads.net/为站长打Call,太感谢站长了...

2019-06-18 10:27:56 295

原创爬虫淘宝遇到密码登录

最近在爬取淘宝中的相关信息，遇到登录界面现给出两种方法解决登录问题，现测可用。因为cookie可以用来保存登录的信息，故通过保存cookie信息来模拟登录。打开淘宝进入登陆页面，打开开发者工具切换到Network选项，监听log。把账号和密码填入选型款，再点击登陆，回到Network选项，找到含有login的选项卡，可能有多个login选项，找到请求为post的那个网页，选中headers下的r...

2019-06-17 14:54:49 3417

原创用xpath下载图片，代码简单但是文章里面提到一个点需要注意

下载图片，保存到文件中链接：https://pan.baidu.com/s/1ZBLfTFox2yCd168unUvwvA提取码：gh05复制这段内容后打开百度网盘手机App，操作更方便哦

2019-06-14 12:32:10 157

原创使用xpath爬取小说

使用xpath路径方法爬取小说的简介，主要目的是为了熟悉xpath的使用方法链接：https://pan.baidu.com/s/108ZB2l_5OalvFPoqCjMNZw提取码：afx6复制这段内容后打开百度网盘手机App，操作更方便哦...

2019-06-13 21:58:49 1200

原创用正则表达式爬取糗图的图片和一些励志语句

用正则表达式爬取图片并保存到文件中，爬取一些励志名言保存到.txt文件中链接：https://pan.baidu.com/s/1YUMDI1iD_YdkrXDKfNbVGQ提取码：n87f链接：https://pan.baidu.com/s/1oZPW6Gsrb5OFr-LfhSokOA提取码：fnpy复制这段内容后打开百度网盘手机App，操作更方便哦...

2019-06-13 10:15:00 262

原创爬取智联招聘上的求职信息

爬虫爬取智联招聘上的求职信息，并将爬取的内容保存到文件中链接：https://pan.baidu.com/s/1p4gn2enm_WnyqK_3kjnoaQ提取码：prdb复制这段内容后打开百度网盘手机App，操作更方便哦...

2019-06-13 10:11:50 1629 3

原创 EMD分解工具箱下载

https://pan.baidu.com/s/1Mu2j-fRziiuYdtQMr2vX0w1xok此链接可以下载EMD分解的两个工具箱。https://pan.baidu.com/s/1EzvaHQ2wgjGk1k6g4Y-Ngw2gd8这个链接可以下载EMD源码包。将下载的两个工具箱放入源码工具包中，将文件一起放在MATLAB的toolbox目录下，再添加文件的路径，在matla...

2019-06-05 20:55:00 1697 1

原创使用pyspider出现ssl证书错误解决方法

出现ssl证书找不到的错误，只需要在self.crawl()方法中添加validate_cert=False,但是有一点得注意，Handler方法中，不止一个self.crawl()方法，应在全文中的self.crawl()方法中都添加validate_cert=False....

2019-05-28 10:59:05 678

原创在win10上安装pyspider

在cmd终端直接pip install pyspider出现如下错误需要安装两个工具包https://www.lfd.uci.edu/~gohlke/pythonlibs/#pycurl，在这个网站可以找到工具包，找到自己电脑对用对应的版本下载到自己python对应的库文件下，要安装下载的文件包，两个文件配置好后，再pip install pyspider即可安装。安装完pyspid...

2019-05-27 22:56:31 852

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除