python爬虫
Since_you
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
打造一个轻量级企业基本信息采集框架(七)
前言在前面六篇系列的文章中,我们已经初步搭建了一个企业基本信息采集框架,但是从可配置性以及可视化方面还有很多地方需要去完善。这篇文章我们对schedule.py这个文件做一些整体的修改,使其看上去更加符合我们的平常需求。正文我在原有的框架上面,又建立了一个start_crawl.py这个文件来启动全局,主要是想在启动之前做一个更加合理划的配置和判断,下面是具体的实现部分# -*- codi...原创 2020-04-15 09:02:32 · 439 阅读 · 0 评论 -
打造一个轻量级企业基本信息采集框架(六)
前言时间流逝,光影似箭(咳咳,开始装逼了)。我们的采集框架就到了最后的关头了,之前的种种努力,无非就是为了最后一刻的荣耀,这个时候,你们是不是有点情不自禁的小激动,甚至想哭。啊啊啊,太不容易,这么小的框架还要分六个篇章来写,你唬谁呢。嘿嘿,我只不过是让你们能看的舒服一点嘛。不扯淡了,简单说下最后部分的设计。正文虽然之前我们分了5个部分去设计代码,整体的架构依然清晰,但是总感觉缺少那么一个部分...原创 2020-04-14 22:33:01 · 373 阅读 · 0 评论 -
打造一个轻量级企业基本信息采集框架(五)
前言在上文中,我们定义了下载器,是不是对这个框架已经有了一定的认识了,不由自主的发出一句:就这?哈哈哈。今天主要介绍下解析部分,很简单啦,有请其闪亮登场。def rphtml(self, html): """ 企业名称数据处理 :param html: :return: """ if html: ...原创 2020-04-14 22:19:51 · 346 阅读 · 0 评论 -
打造一个轻量级企业基本信息采集框架(四)
前言上文我们定义了一个调度器,其实就是传参,具体的请查看:打造一个轻量级分布式企业基本信息采集框架(三),本文主要对下载器做一个定义,期初想到用aiohttp做下载,后面发现aiohttp异步并发采集速度有点快,改为requests采集(主要是穷,用不起代理),当然,后面我在采集企业详细信息的时候,用了aiohttp了,其实这两者的用法都不是太难,感兴趣的去看下官方文档或者google、百度一下...原创 2020-04-14 22:02:57 · 371 阅读 · 0 评论 -
打造一个轻量级企业基本信息采集框架(三)
前言在上文中我们主要定义了两个数据库,一个是存储表mysql的存储设置,还有一个就是redis初始化设置,包括取数据,计数等功能函数的设置。没有看过的小伙伴请移步打造一个轻量级分布式企业基本信息采集框架(二),本文主要对如何实现调度器,对url进行调度以及设置。正文调度器的实现就比较简单了,简单说下大概逻辑。首先我们对zset集合内status为0的keywords取出来,因为请求是post...原创 2020-04-14 21:46:29 · 354 阅读 · 0 评论 -
打造一个轻量级企业基本信息采集框架(二)
前言在上一篇文章中,我们主要介绍了整个框架的基本架构,如果没看过的小伙伴,可以跳转链接打造一个轻量级分布式企业基本信息采集框架(一)今天我们主要编写数据库这一块,包含mysql数据库存储部分以及redis数据库操作部分。数据库mysql首先我们设计录入的mysql数据表,比较简单,写个sql语句就好了。// 创建mysql数据库 名字叫epreg_collectCREATE DAT...原创 2020-04-14 16:47:00 · 658 阅读 · 0 评论 -
打造一个轻量级企业基本信息采集框架(一)
前言好久没有系统性的写一篇博文了。爬虫工作也进行了快两年了,从简单的requests、xpath解析到js逆向、app反编译、验证码识别等多多少少都经历一些。一个爬虫项目可能由上面一个或者多组成。今天这个spider用scrapy写,明天那个spider用multiprocessing,后天那个爬虫用threading写等等。我们都在尽量的把自己所学应用在各种各样的爬虫当中。这些可能都是一些小项...原创 2020-04-14 16:09:06 · 575 阅读 · 0 评论 -
多线程采集表情包,下一届斗图王者属于你
前几天和朋友微信吹牛,这年头吹牛光发文字,根本解决不了问题,无法让他感觉到你此时的情绪波动,奈何自己平常不怎么注意盗图,导致自己在斗图这一环节败下阵来。当时那是一个气呀,我堂堂八尺男儿,怎么能被这样嘲讽,不能忍,我大鱼人今天要教他做大人!!!想着确实好久没有写爬虫,之前在学习的时候,线程的消费者和生产者队列也该拿出来实践实践了。逻辑梳理使用queue来做队列,生产者调用来个queue,一个...原创 2020-01-22 15:52:55 · 567 阅读 · 0 评论 -
裁判文书网2019年9月份最新爬虫
文书网在9月份终于更新了,上去看了一下,无比的流畅。秉持着一颗探索,天真的童心看看文书网这次更新有啥突破和进展,一言不合直接打开开发者工具,仔细寻找了一番,看到了一个可以的连接,定睛一看,wc,参数这么多,加入参数,最后的返回值内竟然没有自己想要的文本内容,到底怎么弄!!!,可能很多小伙伴看到这里就开始怀疑自己了,这是啥玩意嘛,弄得这么复杂,还能不能愉快的玩耍了!可是没办法嘛,我们要紧跟时代的步...原创 2019-09-05 21:17:26 · 13988 阅读 · 118 评论 -
使用selenium采集国家药品监督管理局的GCP药物信息
前言由于业务需求,需要采集国家药品监督管理局上面的药物信息备案。拿到手这个任务,简单看了一下网页结构,不是小keys。直接到起手来撸代码,说时迟那时快,一分钟后运行了一下,直接给我返回了一串加密的js代码。???这是啥玩意呦,本以为只是一个简单的小任务,原来还有点文章在里面。import scrapyfrom bs4 import BeautifulSoupfrom shunqi.items import ShunqiItemimport ...原创 2019-07-12 21:30:15 · 1032 阅读 · 0 评论 -
协程的简单应用(aiohttp,asyncio)---爬虫
协程概念在python3.5以后,引用了一个很强大的异步包aiohttp,经过几天的实测,它的速度难以想象,相较于传统的爬虫包requests,简单比较了一下,速度最少都要相差10倍左右。这个在不伤害对方服务器的情况下,对于提升我们爬虫的效率是有很大帮助的。简单介绍一下协程。根据百度百科的定义:协程不是进程或线程,其执行过程更类似于子例程,或者说不带返回值的函数调用。一般我们接触到有进程和线程...原创 2019-05-24 20:47:03 · 615 阅读 · 0 评论 -
多进程的一些基本用法
前言python调用多进程还是非常方便快捷的,他有一个专门的包(multiprocessing)。借助它,可以轻松完成从单进程到并发执行的转换。multiprocessing支持子进程、通信和共享数据、执行不同形式的同步处理,它提供了一些主要的用法,比如Pool,Queue,Lock等,我们一起去看下他的一些基本用法吧。常用用法multiprocessing这个包的基本用法还是非常简单的,让...原创 2019-04-18 11:42:53 · 641 阅读 · 0 评论 -
多进程爬取携程机票——简单易懂
前言在上一篇文章中,介绍了一些多进程的基本知识,相比较于python单进程速度还是要快上不少的,今天我们就用一个简单的小实践来体现一下多进程的具体实现,很简单哟~正文马上快要五一了,想出去玩玩,就去看了下机票价格,但是呢网上的机票网站太多太复杂,嘿嘿嘿,英雄无用武之地,马上撸起代码,爬取了携程的5月1号的一些机票信息,由于是一个简单的小实践,并没有爬取太多的数据,就给大家讲个一个小思路,了解...原创 2019-04-20 22:31:57 · 1531 阅读 · 4 评论
分享