- 博客(17)
- 收藏
- 关注
原创 打造一个轻量级企业基本信息采集框架(七)
前言在前面六篇系列的文章中,我们已经初步搭建了一个企业基本信息采集框架,但是从可配置性以及可视化方面还有很多地方需要去完善。这篇文章我们对schedule.py这个文件做一些整体的修改,使其看上去更加符合我们的平常需求。正文我在原有的框架上面,又建立了一个start_crawl.py这个文件来启动全局,主要是想在启动之前做一个更加合理划的配置和判断,下面是具体的实现部分# -*- codi...
2020-04-15 09:02:32
404
原创 打造一个轻量级企业基本信息采集框架(六)
前言时间流逝,光影似箭(咳咳,开始装逼了)。我们的采集框架就到了最后的关头了,之前的种种努力,无非就是为了最后一刻的荣耀,这个时候,你们是不是有点情不自禁的小激动,甚至想哭。啊啊啊,太不容易,这么小的框架还要分六个篇章来写,你唬谁呢。嘿嘿,我只不过是让你们能看的舒服一点嘛。不扯淡了,简单说下最后部分的设计。正文虽然之前我们分了5个部分去设计代码,整体的架构依然清晰,但是总感觉缺少那么一个部分...
2020-04-14 22:33:01
334
原创 打造一个轻量级企业基本信息采集框架(五)
前言在上文中,我们定义了下载器,是不是对这个框架已经有了一定的认识了,不由自主的发出一句:就这?哈哈哈。今天主要介绍下解析部分,很简单啦,有请其闪亮登场。def rphtml(self, html): """ 企业名称数据处理 :param html: :return: """ if html: ...
2020-04-14 22:19:51
303
原创 打造一个轻量级企业基本信息采集框架(四)
前言上文我们定义了一个调度器,其实就是传参,具体的请查看:打造一个轻量级分布式企业基本信息采集框架(三),本文主要对下载器做一个定义,期初想到用aiohttp做下载,后面发现aiohttp异步并发采集速度有点快,改为requests采集(主要是穷,用不起代理),当然,后面我在采集企业详细信息的时候,用了aiohttp了,其实这两者的用法都不是太难,感兴趣的去看下官方文档或者google、百度一下...
2020-04-14 22:02:57
335
原创 打造一个轻量级企业基本信息采集框架(三)
前言在上文中我们主要定义了两个数据库,一个是存储表mysql的存储设置,还有一个就是redis初始化设置,包括取数据,计数等功能函数的设置。没有看过的小伙伴请移步打造一个轻量级分布式企业基本信息采集框架(二),本文主要对如何实现调度器,对url进行调度以及设置。正文调度器的实现就比较简单了,简单说下大概逻辑。首先我们对zset集合内status为0的keywords取出来,因为请求是post...
2020-04-14 21:46:29
306
原创 打造一个轻量级企业基本信息采集框架(二)
前言在上一篇文章中,我们主要介绍了整个框架的基本架构,如果没看过的小伙伴,可以跳转链接打造一个轻量级分布式企业基本信息采集框架(一)今天我们主要编写数据库这一块,包含mysql数据库存储部分以及redis数据库操作部分。数据库mysql首先我们设计录入的mysql数据表,比较简单,写个sql语句就好了。// 创建mysql数据库 名字叫epreg_collectCREATE DAT...
2020-04-14 16:47:00
620
原创 打造一个轻量级企业基本信息采集框架(一)
前言好久没有系统性的写一篇博文了。爬虫工作也进行了快两年了,从简单的requests、xpath解析到js逆向、app反编译、验证码识别等多多少少都经历一些。一个爬虫项目可能由上面一个或者多组成。今天这个spider用scrapy写,明天那个spider用multiprocessing,后天那个爬虫用threading写等等。我们都在尽量的把自己所学应用在各种各样的爬虫当中。这些可能都是一些小项...
2020-04-14 16:09:06
518
原创 多线程采集表情包,下一届斗图王者属于你
前几天和朋友微信吹牛,这年头吹牛光发文字,根本解决不了问题,无法让他感觉到你此时的情绪波动,奈何自己平常不怎么注意盗图,导致自己在斗图这一环节败下阵来。当时那是一个气呀,我堂堂八尺男儿,怎么能被这样嘲讽,不能忍,我大鱼人今天要教他做大人!!!想着确实好久没有写爬虫,之前在学习的时候,线程的消费者和生产者队列也该拿出来实践实践了。逻辑梳理使用queue来做队列,生产者调用来个queue,一个...
2020-01-22 15:52:55
507
原创 裁判文书网2019年9月份最新爬虫
文书网在9月份终于更新了,上去看了一下,无比的流畅。秉持着一颗探索,天真的童心看看文书网这次更新有啥突破和进展,一言不合直接打开开发者工具,仔细寻找了一番,看到了一个可以的连接,定睛一看,wc,参数这么多,加入参数,最后的返回值内竟然没有自己想要的文本内容,到底怎么弄!!!,可能很多小伙伴看到这里就开始怀疑自己了,这是啥玩意嘛,弄得这么复杂,还能不能愉快的玩耍了!可是没办法嘛,我们要紧跟时代的步...
2019-09-05 21:17:26
13882
119
原创 使用scrapy框架采集企业黄页数据
今天闲着无聊,好就没用scrapy框架写爬虫了,于是就写了一个企业黄页的爬虫脚本,采集顺企网黄页数据,保存到mongodb,话不多说,简单看下代码吧。下面部分是spider代码(习惯使用beautifulsoup了QAQ)import scrapyfrom bs4 import BeautifulSoupfrom shunqi.items import ShunqiItemimport ...
2019-07-12 21:30:15
909
原创 爬虫工作的小总结
前言不得不说爬虫确实是一个有趣的“杂学”,为什么这么理解呢?我刚开始接触到爬虫,是因为自己无意间想学习python,爬虫又是一个比较快入手的学习方向,也是一个很好的就业方向,就开始学习爬虫。本就着大道至简的道理,佛系学习原则,从刚开始的python基础,数据结构,函数,类,到后面学习爬虫的基础模块,requests,urllib,selenium,还要学习一些前端的知识,学习了这些以后,基本上能...
2019-07-12 21:03:33
1167
原创 使用selenium采集国家药品监督管理局的GCP药物信息
前言由于业务需求,需要采集国家药品监督管理局上面的药物信息备案。拿到手这个任务,简单看了一下网页结构,不是小keys。直接到起手来撸代码,说时迟那时快,一分钟后运行了一下,直接给我返回了一串加密的js代码。???这是啥玩意呦,本以为只是一个简单的小任务,原来还有点文章在里面。---爬虫
协程概念在python3.5以后,引用了一个很强大的异步包aiohttp,经过几天的实测,它的速度难以想象,相较于传统的爬虫包requests,简单比较了一下,速度最少都要相差10倍左右。这个在不伤害对方服务器的情况下,对于提升我们爬虫的效率是有很大帮助的。简单介绍一下协程。根据百度百科的定义:协程不是进程或线程,其执行过程更类似于子例程,或者说不带返回值的函数调用。一般我们接触到有进程和线程...
2019-05-24 20:47:03
572
原创 多进程爬取携程机票——简单易懂
前言在上一篇文章中,介绍了一些多进程的基本知识,相比较于python单进程速度还是要快上不少的,今天我们就用一个简单的小实践来体现一下多进程的具体实现,很简单哟~正文马上快要五一了,想出去玩玩,就去看了下机票价格,但是呢网上的机票网站太多太复杂,嘿嘿嘿,英雄无用武之地,马上撸起代码,爬取了携程的5月1号的一些机票信息,由于是一个简单的小实践,并没有爬取太多的数据,就给大家讲个一个小思路,了解...
2019-04-20 22:31:57
1460
4
原创 多进程的一些基本用法
前言python调用多进程还是非常方便快捷的,他有一个专门的包(multiprocessing)。借助它,可以轻松完成从单进程到并发执行的转换。multiprocessing支持子进程、通信和共享数据、执行不同形式的同步处理,它提供了一些主要的用法,比如Pool,Queue,Lock等,我们一起去看下他的一些基本用法吧。常用用法multiprocessing这个包的基本用法还是非常简单的,让...
2019-04-18 11:42:53
590
原创 新的博客,新的开始!!!
大概在去年11月份左右才开通的博客,一直想记录下自己学习python的历程,但是由于自己的种种原因(别说了,我懒QAQ),一直都停滞在这,迟迟无法动笔。但今天看到崔大大的博客后,深有感触,特别有一种冲动,想建立一个即属于自己,也属于大家的一个技术分享(本人小白,技术盲点很多)。嘿嘿,目前刚毕业一年左右,从事网络爬虫这份工作,也是在工作中逐渐成长起来,从以前的一窍不通到了如今刚入门,也算是一个小小...
2019-04-17 10:32:03
223
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人