
爬虫
MaoningGuan
Python、爬虫、机器学习、物联网、C/C++开发
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
python模拟滑动滑块验证
def get_tracks(self, distance): """ 根据偏移量获取移动轨迹 :param distance:偏移量 :return:移动轨迹 """ # 移动轨迹 tracks = [] # 当前位移 current = 0 # 减速阈值 mid = distance * 4 / 5 # ...原创 2020-05-23 02:28:01 · 6983 阅读 · 2 评论 -
Python如何解决中文乱码
环境配置:windows 10, 64bitAnaconda 3, python 3.71、问题描述:如上图所示,我们从python爬虫得到网页内容,print(req.text)可能会出现中文乱码,其中,req是我们获取到的response,如:req = requests.get(url)。在网上找了挺多方法都不起作用。下面,将通过三种方法来分别解决中文乱码问题。2、问题分析:运行以下python代码:print(req.encoding)print(req.app.原创 2020-05-22 20:09:53 · 4614 阅读 · 0 评论 -
scrapy框架XPATH选择器与正则式使用技巧
代码示例: def parse_item(self, response): item = NewsItem() item['title'] = response.xpath('//h1[@id="chan_newsTitle"]/text()').extract_first() item['url'] = response.url item['text']=''.join(response.xpath('//div[@id="原创 2020-05-20 20:55:59 · 1375 阅读 · 0 评论 -
scrapy框架Pipelines的使用范例
系统环境:Anconda3, windows 10 64bit, Python 3.7Python packages:Python packages:import pymongoimport pymysqlfrom scrapy import Requestfrom scrapy.exceptions import DropItemfrom scrapy.pipelines.images import ImagesPipeline1、MongoDB保存数据Pipeline:.原创 2020-05-17 16:32:51 · 340 阅读 · 0 评论 -
执行 redis-dump 报错:ERROR (Errno: ENOENT): No such file or directory
问题描述:我们在初次使用“redis-dump -u :password@127.0.0.1:6379”来导出本地的Redis数据库的数据时,会出现以下错误:解决方法:修改dump.rb文件,到Ruby的安装目录下找到dump.rb文件(文件路径:Ruby26-x64\lib\ruby\gems\2.6.0\gems\redis-dump-0.4.0\lib\redis),把du...原创 2020-05-08 17:15:34 · 682 阅读 · 1 评论 -
执行 redis-dump 报错:Error connecting to Redis on localhost:6379 (Redis::TimeoutError)
问题描述:我们在本地的Redis数据库做测试时,使用“redis-dump -u :password@localhost:6379”命令导出数据会出现以下错误:解决办法:将命令中的“localhost”改为“127.0.0.1”即可,更改后的命令如下:redis-dump -u :password@127.0.0.1:6379注意要把命令中的“password”改为你...原创 2020-05-08 17:06:11 · 756 阅读 · 0 评论 -
解决 tesserocr报错 Failed to init API, possibly an invalid tessdata path :D:\software\Anaconda3\tessdata
问题描述:我们在初次使用tesserocr库的时候,可能会报以下错误:RuntimeError: Failed to init API, possibly an invalid tessdata path: D:\software\Anaconda3\/tessdata/这是因为在 anaconda的安装目录下找不到"tessdata"这个文件夹。解决办法:找到Tesser...原创 2020-05-07 22:13:55 · 842 阅读 · 0 评论 -
AI&BigData训练营笔记四:Python爬取A股股票名称和代码
系统环境:操作系统:Windows8.1专业版 64bit Python:anaconda、Python2.7 Python modules:requests、random、BeautifulSoup、pandasBackground:合规门户中有很多地方需要用户填写股票名称或股票代码,因此需要各个股票市场的证券名称和证券代码,包括 A/B/H股/港股。在此以...原创 2018-04-28 10:05:26 · 2345 阅读 · 0 评论 -
Python爬虫爬取动态网页
系统环境:操作系统:Windows8.1专业版 64bit Python:anaconda、Python2.7 Python modules:requests、random、jsonBackground:对于静态网页,我们只需要把网页地址栏中的url传到get请求中就可以轻松地获取到网页的数据。但是,我们经常会遇到直接把网页地址栏中的url传到get请求中无法直接获...原创 2018-05-01 20:05:54 · 84158 阅读 · 19 评论 -
AI&BigData训练营笔记三:Python爬虫攻破反爬虫防御策略
系统环境:操作系统:Windows8.1专业版 64bit Python:anaconda、Python2.7 Python modules:requests、json、random、timeBackground:在使用Python爬虫爬取网页数据时,我们会遭到网站自身的反爬虫防御,这时候我们需要采取一些方法来攻破网站的反爬虫防御策略。解决方法:接下来,将使用伪装浏览器UA、IP代...原创 2018-04-22 17:49:09 · 860 阅读 · 2 评论 -
AI&BigData训练营笔记二:Python实现爬取JSON数据
系统环境:操作系统:Windows8.1专业版 64bit Python:anaconda、Python2.7 Python modules:requests、jsonBackground:在使用Python进行爬虫开发时,我们经常需要爬取一些JSON数据。JSON数据:解决方法:在编程实现之前,需要按照以上的系统环境,配置好自己Python环境。# -*- coding: utf-8 -...原创 2018-04-22 17:01:24 · 667 阅读 · 0 评论 -
AI&BigData训练营笔记一:Python实现爬取HTML页面内容
系统环境:操作系统:Windows8.1专业版 64bitPython:anaconda、Python2.7Python packages:requests、beautifulsoupBackground:在使用Python进行爬虫开发时,我们经常需要爬取一些HTML页面的内容。解决方法:在编程实现之前,需要按照以上的系统环境,配置好自己Python环境,同时安装好requests、beaut...原创 2018-04-22 16:29:13 · 568 阅读 · 0 评论