郭一明-优快云博客

原创测试爬虫爬取百度贴吧爬取百度搜图图片

测试爬取百度贴吧图片定义爬取百度斗图吧首页的每条贴子的URL的爬取规则对象 /** * 斗图吧贴子的url */ SpiderFunction<Set<String>> doutubaTieZiUrl = spider -> { // 文本爬取对象 TextSpider textSpider = (Text...

2019-09-17 10:17:23 2349

原创爬虫流对象调整

爬虫流对象调整之前的爬虫流对象只是整合了Stream 流作为Stream 流的一个入口来进行使用现在将SpiderStream 流作为一个包装流来使用等于说内部维护了一套Stream流对象自己对外是只与自己调用代码:package com.tpddy.spider.plugin.spider;import cn.hutool.core.util.StrUtil;impo...

2019-09-17 09:17:02 1899

原创爬虫爬取策略封装成对象

上次说了爬取数据时页面元素的截取,为了方便以后更灵活的使用这次将爬取规则封装成一个一个的对象这样在以后的使用中就可以更灵活的使用了1.首先封装爬取规则的java类package com.tpddy.spider.plugin.spider;import java.util.List;import java.util.stream.Collectors;/** * 自定义爬取...

2019-09-10 14:01:52 2089

原创自定义爬虫筛选规则

最近迷上了爬虫在网上找了几个框架发现用起来都不是特别舒服在页面筛选元素时要么只能使用正则要么就是操作DOM树,还有使用Xpath作为页面元素提取的, 一些其他的设置用起来也不是很顺手因此打算自己编写一个简单的爬虫框架, 方便将来使用本篇只有页面元素选择的代码首先分析我们平时使用爬虫的时候一般爬取的页面内容包括什么一. 内容就是正文:开始标签和结束标签中间的文字二. 标签的属...

2019-09-09 17:05:35 2678

原创 ActiveMQ做消息队列拦截功能

ActiveMQ做消息队列拦截功能操作步骤操作步骤首先先到ActiveMQ官网下载最新的最稳定的版本 http://activemq.apache.org/activemq-5158-release.html 我下载的是Windows版本的直接解压双击运行bin/win64/activemq.bat . 弹出黑窗口 (黑窗口不要关) 访问localhost:8161 如果出现页面 ...

2019-03-11 11:13:16 3443 4

原创 dubbo监控服务获得运行在dubbo上的服务信息

dubbo监控服务由于公司领导要求笔者开发一套dubbo服务监控系统因为本人技术有限实在无法自己独自一人搞定只好参照前人的经验自己仿照着写了个监控平台这里笔者选择的是韩都衣舍的大牛们写的dubbo-monitoring项目本文主要对dubbo-monitoring 的核心部分做分析韩都衣舍的dubbo-monitoring项目连接附:https://gitee.com/han...

2019-01-15 16:10:06 4128

java银行工具类java银行工具类

根据银行卡号获取银行的名称银行的机构号银行卡的卡的类型银行卡的卡种工具类是由java 编写其他的开发语言也可以参考包含了4800 +种卡种自己测试了还是比较全的比支付宝提供的接口返回的卡种还要全读取银行数据文件的时候可能需要根据自己的文件路径进行配置

2019-03-08

PL/SQL 用户指南中文版

PL/SQL Developer 是一个为 Oracle 数据库开发存储程序单元的集成开发环境(IDE)，使 PL/SQL Developer，你能方便地创建你的客户端/服务器应用程序的服务器部分

2019-01-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 测试爬虫 爬取百度贴吧 爬取百度搜图图片

原创 爬虫流对象调整

原创 爬虫 爬取策略封装成对象

原创 自定义爬虫筛选规则