
爬虫
Xy-Huang
好像除了写代码,啥也不会了......
展开
-
Python OCR识别图片验证码(一)
对于某些网站登录的时候,往往需要输入验证码才能实现登录。如果要爬虫这类网站,往往总会比这个验证码导致无法爬取数据。以下介绍一种比较折中的方法,也是比较可行的方法: 实现思想: 1、通过截图获取验证码图片,为什么要截图,有的人会说,可以通过验证码图片的链接爬取下来,再用OCR识别就可以了,理论上这个方法是可行的,但是当你用这方法的时候,会发觉下载的图片和你实际页面的图片里面的内容是不一样的。 2原创 2017-03-27 17:22:52 · 15704 阅读 · 3 评论 -
Python爬虫乱码问题
>>> a= '\u4F18\u60E0\u4FC3\u9500'>>> import json>>> b= json.dumps(a,ensure_ascii=Fa原创 2018-05-11 09:31:18 · 473 阅读 · 0 评论 -
Python 爬虫执行JavaScript
欢迎加入学习交流QQ群:657341423反爬虫技术一直是爬虫最难解决的问题,因为要开发者深入了解网站的反爬机制才能做出相应的解决方案。 反爬虫技术之中,最为复杂的是加密和js混淆。两者都要分析网站的js代码,找出相应的加密算法和混淆方法。 有时候一些脚本只能由js完成,遇到这类的爬虫,我们可以使用python执行js代码。 Python执行js代码的模块有PyExecJS 和 py...原创 2018-05-16 18:38:20 · 8309 阅读 · 2 评论 -
Python用数据说明程序员需要掌握的技能
欢迎加入学习交流QQ群:657341423 本人新书《玩转Python网络爬虫》程序员是一个不错的职业,尽管很苦逼,但发展的前景很可观。想要成为一名程序员,需要掌握哪些技能才算是一名合格的程序员呢?本章节我们通过数据来告诉你。 我们以前程无忧的职业招聘信息为数据源,职位关键字搜索为Python,搜索地区为广州。根据这一条件,我们编写相关的爬虫代码import requests...原创 2018-05-29 16:18:06 · 1876 阅读 · 0 评论 -
Python实现简单的智能回答
本人新书《玩转Python网络爬虫》,可在天猫、京东等商城搜索查阅,项目深入浅出,适合爬虫初学者或者是已经有一些网络爬虫编写经验,但希望更加全面、深入理解Python爬虫的开发人员。 ———-欢迎加入学习交流QQ群:657341423随着AI的发展,机器人越来越普及。对于一些企业来说,如果要自主开发机器人系统,需要庞大的开发费用以及维护成本。因此,我们可以直接使用现有的人工智能产品。...原创 2018-06-19 15:14:49 · 12765 阅读 · 3 评论 -
GoLang—爬虫—模拟发送HTTP请求
GoLand的标准库net/http可以实现client和server的功能开发。简单来说,client就是我们向服务器发送HTTP请求,常用于访问API接口获取相应数据、开发网络爬虫等功能;server是开发服务器web应用,也就说我们常说的网址开发。GET请求本博文讲述如何使用GoLand的标准库net/http开发网络爬虫,我们首先以HTTP的GET请求为例,该请求实现自定义请求头、设置...原创 2020-07-20 12:22:25 · 1361 阅读 · 0 评论 -
GoLang—爬虫—数据清洗(goquery)
当原创 2020-07-20 12:22:17 · 2080 阅读 · 2 评论 -
GoLang—爬虫—解析JSON数据
JSON作为一种重要的数据格式,具有良好的可读性以及自描述性,广泛地应用在各种数据传输场景中。在网络爬虫中,当网页采用AJAX方式渲染数据时,我们必须找出AJAX的异步请求方式,并且模拟发送AJAX,从中获取数据内容,AJAX的响应数据大部分采用JSON格式表示。GoLand可以使用标准库encoding/json解析JSON数据,此外还有第三方包ffjson、easyjson、jsoniter...原创 2020-07-20 12:21:53 · 2259 阅读 · 0 评论 -
Python OCR识别图片验证码(二)
操作系统:Windows Python:3.5上节讲到验证码的简单识别但对于一些复杂的验证码,我们需要做一些简单的图片处理才能识别。例如,我要识别这些验证码: 设计思路:首先将图片变灰,然后转为RGBA,即四个通道,每个通道代表每种颜色,这个涉及到图片处理的一些基础知识。这个可以研究一下opencv。这个比较有意义。然后判断通道的颜色来转换成黑白色彩。便于OCR识别。from PIL impo原创 2017-05-31 11:51:17 · 10888 阅读 · 1 评论 -
Python 爬取百度音乐
获取歌曲信息post方式import requestsurl='http://play.baidu.com/data/music/songlink'data={'songIds':'100575177'}r=requests.post(url,data=data)print (r.content.decode('UTF-8'))f=open('data.txt','w',en原创 2017-09-08 19:45:46 · 2009 阅读 · 0 评论 -
Python Beautiful Soup+requests实现爬虫
Python 爬虫库大概有 标准库 urllib 或第三方库 requests,scrapy,BeautifulSoup 用于获取数据网站较多。scrapy其实是框架形式,适用于大规模爬取,requests就是通过http的post,get方式实现爬虫。Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库 本次介绍Beautiful Soup+requests实原创 2017-02-27 15:38:37 · 1219 阅读 · 0 评论 -
Python request简单使用
python request模块通过模拟用户访问web网站,实际运用到Html的post,get的方法实现网站互动。这个需要了解Html的post,get的基础知识。 比较常见的就是用户登录,基本上现在的网站都是要用户登录了才能继续进一步访问。 post方式 这个方法就通过post个人的帐号密码到网站,实现登录。 以豆瓣登录为例: 首先要找到post网址 打开网页->按F12(找到网络(原创 2017-03-22 10:37:23 · 13844 阅读 · 0 评论 -
pyinstaller打包exe--requests模块打包后无法运行
python程序中使用到requests,在开发环境中可以正常运行,但用pyinstaller 打包成单个exe文件后,却无法运行,提示 requests 中的urllib3依赖的一个six.py模块出现运行错误。以下报错情况: 没有模块queue,但是在我的程序里面是没有使用这个模块的 出现这个情况,归根到底都是request模式使用了queue这个模块,在开发模式下运行,系统会自动加载这些模原创 2017-03-31 09:44:33 · 4899 阅读 · 2 评论 -
Python scrapy基础教程(一)
scrapy作为一个爬虫框架,其功能是足够强大的。 这一框架就像一条爬虫流水线,有工作队列、有下载器、有分配任务的引擎,有对爬取数据写逻辑的地方、也有写保存处理数据的数据库SQL的地方。对于scrapy而言,更多的时候是在配置scrapy。先要继承一个spider写爬虫的主体,然后还要在setting里写配置,在pipeline里写数据库。而且还要注意在主函数parse里的返回值,返回item时是原创 2017-04-11 11:34:38 · 1201 阅读 · 0 评论 -
Python scrapy基础教程(二)
爬取一般网站常用的spider。其定义了一些规则(rule)来提供跟进link的方便的机制。 也许该spider并不是完全适合您的特定网站或项目。因此您可以以其为起点,根据需求修改部分方法。当然您也可以实现自己的spider。 也就是说spider是根据spider里面的start_urls的url进行爬虫的。但有时候我们爬取的url是带有参数,或者需要登录了网站才能爬取数据的时候,这时候spid原创 2017-04-11 15:21:38 · 656 阅读 · 0 评论 -
Python scrapy基础教程(三)
爬虫最基本的就是对网页的post和get,也就是http的post和get,这样就可以动态实现自己想要那个网页的数据。 scrapy的post和get使用是有一定限制的: 1.如果start_urls不是post接口,可以通过start_urls里面找到接口路径,然后在FormRequest 2.如果start_urls是post接口,只能重定义start_requests方法,定义为post原创 2017-04-12 15:16:21 · 1011 阅读 · 0 评论 -
Python requests爬虫实例
操作系统:Windows Python:3.5需要用到的库: requests wxPython docx win32api需要安装pywin32解释: requests这个用来做爬虫,基本上不用多作解释 wxPython和win32api主要生成软件的操作界面,给用户使用。 docx主要将爬取的结果,用word显示出来。网页分析: 这里以南方日报每天的报纸为例:请点击 可原创 2017-06-21 16:07:39 · 4430 阅读 · 0 评论 -
Python 爬虫QQ音乐
爬取高质量mp3import requestsheaders={'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8','Cache-Control':'no-cache','Connection':'keep-alive','Host':'dl.stream.qqmusi原创 2017-09-04 17:34:27 · 3129 阅读 · 0 评论 -
GoLang—MySQL数据库操作
Go标准库中没有数据库驱动,如果实现数据库连接与操作,参见获取第三方的数据库驱动。本文以MySQL为例,我们使用go-sql-driver实现数据库的连接和操作,首先在CMD窗口下安装驱动go-sql-driver,指令如下。go get github.com/go-sql-driver/mysql数据库驱动安装成功后,在GoLand(ide)中使用go-sql-driver实现数据库的连接...原创 2020-07-20 12:22:08 · 705 阅读 · 0 评论