
爬虫
文章平均质量分 87
爆米花机枪手
无知者无畏~
展开
-
Javaer,你必须要了解的ExecutorService
之前做的一个功能里有一个耗时操作:处理数据库里对应的记录,然后将每个处理后的结果做个排序。 恕本人小白,刚开始直接用单线程处理!你敢信?!然后60多万条记录,跑了三分钟才出结果!当时我就震惊了,这尼玛要被“刁”的节奏啊。但我并没有什么好的解决方案,便去咨询老大,然后老大直接丢过来一段代码附带几个字原创 2017-03-30 23:11:39 · 1733 阅读 · 0 评论 -
代码里的“随机应变”
说在前头 有段时间没更新了,期间发生了很多事,这里就不一一赘述,有一个要说一下, 之前我放在github上的springbootquick代码结构我重新整理了一下,因为我觉得branch的方式去完善每个小功能不太直观,索性找个时间全都整理在了一起,方便大家观看 项目地址为https://github.com/vector4wang/spring-boot-quick 里面有些是我工作中用原创 2017-06-04 09:34:39 · 864 阅读 · 0 评论 -
优快云博客迁移至Hexo之同步优快云博文到本地MD文件
动机 自从我把Github+Hexo的博客“交给”Google之后,每天都有几十位的访客2333,访客少的原因有许多,一个是文章较少,二是百度虫子没有爬到我的页面,就会导致即就算直接搜索博客里面的内容,百度都不会返回我的地址,就这个情况我已经使用百度和谷歌去处理了,至于文章较少的问题,我打算做个博客迁移!原创 2017-07-16 17:40:41 · 3233 阅读 · 8 评论 -
微信小程序娱乐---哇哦窝
自从去年微信小程序诞生到现在已经有段时间了,个人还是挺看好小程序的,去年的时候就打算玩一玩小程序,但是一直都抽不出时间。自从上次弄了台阿里云ECS之后,就又有了玩玩小程序的欲望,于是花了两个晚上的时间玩了玩,算是开发完成了。原创 2017-07-30 17:23:10 · 1306 阅读 · 0 评论 -
Springboot与Selenium合体变蜘蛛爬企查查
最近工作上需要一些企业的详细的数据,工商信息啦,基本信息啦,还有一些关系图(投资关系、人物图谱)之类的,然后我来负责从企查查上弄些数据。强调:下面只是快速实现数据抓取的思路,没有详细的代码,同时也拒绝伸手党。 现实中,一些工商信息网站会被无数的爬虫“骚扰”,所以网站的反爬虫策略也是越来越高,就拿企查查来说,基本的信息是直接可访问的,但是像人物图谱和企业图谱这些内容还是需要登录的, 特别原创 2018-01-09 23:27:57 · 4247 阅读 · 6 评论 -
一套简单的java爬虫框架VW-Crawler发布啦!!!
VW-Crawler背景自己一直对爬虫比较感兴趣,大学的毕业论文也是一个爬虫项目(爬教务处信息,然后做了个Android版教务管理系统,还获得了优秀毕业设计的称号),自那以后遇到自己感兴趣的网站就会去抓一下。前段时间工作上需要一些JD信息,我就从网上找了个开源的爬虫框架WebMagic,使用简单,易配置,功能也很强大,当然了也有些网站的数据不适合使用。前前后后写了不下十几个,慢慢的就想...原创 2018-07-19 22:17:10 · 1037 阅读 · 1 评论 -
用springboot+vw-crawler轻松抓取优快云的文章
使用springboot+vw-crawler轻松抓取优快云的文章有关VW-Cralwer的介绍可以看这里,简单轻便开源的一款Java爬虫框架。下面结合比较流行的框架SpringBoot抓取优快云的数据(有关的Spingboot的使用可以参考这里)配置POM使用Springboot做架构,redis做数据存储,vw-crawler做爬虫模块,最终的pom如下<...原创 2018-07-22 11:19:34 · 1183 阅读 · 0 评论