
python爬虫
一只长不胖的猪
这个作者很懒,什么都没留下…
展开
-
python抓取处理word文档
前面一篇讲到了处理pdf的内容,今天说下python对word的处理。其实python对word文档的支持不够。为读取docx内容,可以使用以下方法:(1)利用urlopen抓取远程word docx文件;(2)将其转换为内存字节流;(3)解压缩(docx是压缩后文件);(4)将解压后文件作为xml读取(5)寻找xml中的标签(正文内容)并处理下面是代码,传入url即可。def w...原创 2019-09-23 09:46:12 · 2679 阅读 · 1 评论 -
动态抓取网站之scrapy-splash
抓取动态网站除了selenium还有splash。下面介绍下splash试如何使用的。并且以中国人民银行这个网站为例来讲解Splash JavaScript 渲染服务,是 个带有 HTTPAPI 的轻量级浏览器,同时它对接了 Python中的 Twisted QT 利用它,我们同样可以实现动态 染页面的抓取功能介绍利用 Splash ,我们可以实现如下功能:口异步方式处理多个网页渲染过程;...原创 2019-07-26 16:33:00 · 510 阅读 · 0 评论 -
python爬虫常用的解析库
python支持很多很强大的解析库。下面我总结了几种,基本上熟练掌握一两个解析这块就没任何问题了。1.XPathXPath 全称 XML Path Language ,即 XML 路径语言,它是一门在 XML 文档中查找信息的语言它最初是用来搜寻 XML 文档的,但是它同样适用于 HTML 文档的搜索使用之前安装好 lxml 库如果想查询更多 XPath 的用法,可以查看: http...原创 2019-07-25 20:27:47 · 1357 阅读 · 0 评论 -
python获取万年历数据,判断一年中的某一天是否为节假日
公司最近有一个需求需要给后端提供一份万年历数据。显示一年中的每一天是工作日就还是节假日。网上有一些api接口,当然这些接口时需要收费的。我整理了一下网上的资料,写了一些代码来完成这个任务。首先获取一年中的所有日期:def isLeapYear(years): ''' 通过判断闰年,获取年份years下一年的总天数 :param years: 年份,int :re...原创 2019-07-15 15:46:14 · 1533 阅读 · 0 评论 -
python实现企查猫登录
上一篇文章写了企查猫的注册,当我们注册了一批帐号之后了就有了帐号池,通过登录,利用这些帐号我们可以搭建我们的cookie池。进而为了后面的爬取做铺垫。1.分析接口通过测试找到登录的接口同样登录的接口也是一个post请求2.直接上代码 res_ = requests.get('https://www.qichamao.com/') login_url = 'https://w...原创 2019-07-09 19:16:00 · 1276 阅读 · 0 评论 -
python实现企查猫的自动化注册
企查猫网站也是一个集成的工商信息的网站,相对企查查,天眼查这些网站,这个网站相对比较好爬一些。但是很多信息是需要登录的。这也就要求我们必须要能够有一些帐号来做支撑。这里根据公司的需求做了一个企查猫的注册脚本。1.首先分析注册接口通过抓包发现注册接口是一个post请求,并且没有什么加密的东西,所以就不需要用selenium来做了。2.通过第三方获得短信验证码这里有很多第三方的平台,平...原创 2019-07-09 18:59:56 · 1024 阅读 · 0 评论 -
python爬虫人工智能解析文章
之前在公司做一个项目,项目需求是按照标签分类,去不同网站上爬取文章的内容,标题等。然后我就一个网站一个网站的去配xpath,可是网站特别多的时候,领导就会对我提出一个需求能不能,写一种程序然后用来解析所有的网站,也就是智能化解析。这对我一个刚刚做爬虫不久的新手就是很头疼了。于是各种网上找资料,于是发现了DIFFBOT这个东西。官网https://www.diffbot.com,注册后会有15天的免...原创 2019-07-08 17:19:13 · 1116 阅读 · 0 评论 -
爬虫对pdf链接文本处理
最近公司有个爬虫需求需要爬取一个网站的文本内容,但是网站都是pdf的格式,以链接方式呈现出来。我一开始的思路就是把pdf下载到本地下来然后处理pdf,但是这样会很麻烦。如果直接处理pdf链接然后返回pdf中的文本就是最好了。于是在网上找了一些资料,自己封装了一个方法。主要代码:from urllib.request import urlopenfrom pdfminer.converte...原创 2019-07-03 17:44:25 · 2271 阅读 · 7 评论 -
scrapy ImagesPipeline分类获取图片的小工具
喜欢写文章的都知道,有时候有一些好的配图会使得文章看起来更加的丰富,最近我就在想能不能写一个而工具来获取我想要的图片,分类存储,方便我以后写东西用。下面我就分享下我的成果。目标源网址:找了很多网站,但是比较后还是百度图片信息比较全一点。而且图片质量也比较好。采用scrapy中的ImagesPipeline来下载图片class DownImgloadPipeline(ImagesPipel...原创 2019-04-28 18:01:15 · 702 阅读 · 0 评论