- 博客(29)
- 资源 (2)
- 收藏
- 关注

原创 基于ElasticSearch实现图片的相似性(二)
本文实现ElasticSearch6.5的插件编写,因为ElasticSearch6.0和6.5在插件上做了细化核心代码package org.elasticsearch.plugins;import org.apache.lucene.index.LeafReaderContext;import org.elasticsearch.common.settings.Settings;...
2019-10-24 17:18:13
643

原创 基于ElasticSearch实现图片的相似性(一)
部分代码参考: https://www.cnblogs.com/whb-20160329/p/10472717.html思路基于java去实现图片的相似性,比较可行的有几种方式:使用shiro的lire插件实现图片的相似性使用Elastic+phash实现图片的相似性,需要自己编写一个评分插件是否使用Mongo来进行相似性查找,(待定)实现方式获取图片的pHashjava提取图...
2019-10-21 15:58:47
1699
原创 nutch采集部署
nutch的限制:不能采集js动态加载页面内容和分页,对非动态js加载的分页,需要根据分页的情况,来进行设置爬取深度(分页与爬取深度存在关系)。这就限制了nutch全爬取存在很大的局限性,nutch本身要遵守robot协议,如果网址本身不允许被爬取,那么将不会被爬取。nutch2.2.1部署环境要求:系统:Centos7.5运行环境:java1.8数据库:mysql5.7编译环境...
2020-04-02 14:37:46
566
1
原创 网盘调研
调研网址github/gitee,知乎,企业网站调研产品kiftd(开源软件):网址:https://gitee.com/kohgylw/kiftd?_from=gitee_search实现文件上传,但是不能实现,数据秒传 可以时间文件的组内共享。 可以生成下载接口地址,提供在线下载 平台内部集成图片、pdf和视频的插件,实现图片和视频在线查看。 本地文件系统存储亿方...
2020-03-26 13:38:03
880
转载 DS开发环境搭载
设计特点:一个分布式易扩展的可视化DAG工作流任务调度系统。致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程中开箱即用。 其主要目标如下:以DAG图的方式将Task按照任务的依赖关系关联起来,可实时可视化监控任务的运行状态支持丰富的任务类型:Shell、MR、Spark、SQL(mysql、postgresql、hive、sparksql),Python,Sub_Pro...
2020-03-04 17:55:52
908
原创 socket查看zookeeper情况(4字命令)
public class FourLetterWordMain { private static final int DEFAULT_SOCKET_TIMEOUT = 5000; protected static final Logger LOG = LoggerFactory.getLogger(FourLetterWordMain.class); /** ...
2020-02-27 22:59:38
489
翻译 大数据产品最新测试基准看哪家(TPC-H or TPC-DS)?
前言Hadoop的出现让人们尝到了大数据技术的甜头,它的批处理能力已经被工业界充分认可,但是它的延迟性也一直为大家所诟病。随着各行各业的发展,越来越多的业务要求大数据系统既可以处理历史数据,又可以进行实时计算。比如电商推荐系统,当你在京东浏览商品时,京东会根据你的浏览、加车、收藏、删除等行为,实时为你推荐商品。要实现这个功能,推荐引擎首先需要根据历史数据预先离线计算推荐模型,然后从消息队列中实时...
2020-02-06 12:59:35
1090
原创 前后端非对称加密,解决http明文传输
后台加密解密的工具类package com.sdyy.cas.utils;import org.apache.commons.codec.binary.Base64;import javax.crypto.Cipher;import java.math.BigInteger;import java.security.*;import java.security.interfaces...
2020-01-15 16:12:18
13589
原创 防止Xss脚本攻击(XssFilter)
配置文件package com.sdyy.cas.config;import com.google.common.collect.Maps;import com.sdyy.cas.filter.XssFilter;import org.springframework.boot.web.servlet.FilterRegistrationBean;import org.springfra...
2020-01-15 16:05:25
713
原创 Java调用ElasticSearch自定义的评分插件
之前,使用phash做了一个基于ElasticSearch的图片相似性的项目,需要自己写一个评分插件,在kibana中用es的语句查询,没有问题,现在要集成到java项目中kibana中查询语句GET test_index/_search{ "from": 0, "size": 10, "min_score":80, "query": { "function_...
2020-01-15 15:53:17
1496
1
原创 文件监听同步(watchservice)
watchserviceprivate void startCatalogWatcher(File catalogConfigurationDir) throws IOException, InterruptedException { WatchService watchService = FileSystems.getDefault().newWatchService(...
2020-01-15 15:52:17
360
原创 文件监听同步(canal 搭建)
参考文档https://github.com/alibaba/canal/wiki/QuickStartmysql开启bin-log日志log_bin = /var/lib/mysql/bin-logskip-name-resolvebinlog-format=ROW创建canal对象CREATE USER canal IDENTIFIED BY 'canal'; GRANT...
2020-01-15 14:00:12
1017
原创 文件监听同步(lsyncd)
使用lsyncd实现多台机器的文件同步多台机器的ssh互信ssh-copy-id 对方的机器IP或者主机名下载安装lsyncdyum install http://rpmfind.net/linux/epel/7/x86_64/Packages/l/lsyncd-2.2.2-1.el7.x86_64.rpm配置lsyncd.conf文件vi /etc/lsyncd.conf #修改...
2020-01-15 10:50:05
551
原创 mysql集群双活+高可用
mysql双主部署+keepalived 安装mysql(此处使用二进制,还可以用 rpm包安装 或 mysql编译安装)https://blog.youkuaiyun.com/u012562411/article/details/85220783 0.卸载原来版本mysql或mariadbrpm -e mariadb-libs --nodeps1.进入/usr/local,下载tar包w...
2019-12-25 19:30:21
2044
原创 Redis4集群搭建操作记录
cp -r /etc/yum.repos.d /etc/yum.repos.d.bakrm -rf /etc/yum.repos.d/*cd /etc/yum.repos.d/ && vi CentOS-Base.repo*************************# CentOS-Base.repo## The mirror system uses the co...
2019-12-25 19:28:17
157
原创 git文件上传
注册git账号略生成ssh-keyssh-keygen -t rsa -C "xxxx@xx"配置文件git config --user.name ="xx"git config --user.email ="xxx@xx"上传git文件进入 文件夹cd xxx创建初始化文件git init创建README文件touch README.md 添加README文件...
2019-12-03 13:14:48
157
转载 java 列表或数组按指定大小分组
原文链接:https://blog.youkuaiyun.com/abc5232033/article/details/75453170import java.util.ArrayList;import java.util.Arrays;import java.util.List; /** * 列表或数组按指定大小分组,用于批量取一部分数据循环处理 * */public class Arra...
2019-11-21 14:34:02
1436
原创 基于云打码的验证码识别
class YDMHttp(object): apiurl = 'http://api.yundama.com/api.php' username = '*************1' password = '**************' appid = 9079 appkey = '********************' def __ini...
2019-11-20 10:03:07
461
原创 基于Tesseract-OCR的验证码识别
先上代码必须现在电脑上按照Tesseract-OCR,下载地址:链接:https://pan.baidu.com/s/1FBA2lXKdQeYGn3gWC3vBoQ提取码:zaopfrom PIL import Imageimport pytesseractfrom PIL import ImageEnhancepytesseract.pytesseract.tesseract...
2019-11-15 11:26:03
326
原创 presto(二) presto部署
Presto介绍presto查询环境搭建presto组件下载下载(server和cli):https://repo1.maven.org/maven2/com/facebook/presto/presto-server/0.212/presto-server-0.212.tar.gzhttps://repo1.maven.org/maven2/com/facebook/presto/p...
2019-11-11 13:28:19
813
原创 presto(一) presto概述
presto背景及发展长话短说,大数据时代,hadoop的解决方案,解决了完美的大数据存储和很好的解决了计算的问题,但是由于hadoop采用的是一套MR的解决方案,这就导致hadoop可以解决大批量的离线计算问题但是不能很好的解决AC-hoc的问题,faceBook开源了prestopresto的特点多数据源支持sql支持混合查询拓展性混合计算高性能内存计算,流水线pres...
2019-11-05 19:03:45
1901
原创 Echars y轴和饼状图 格式化
y轴 展示格式化 yAxis: { name: '', type: 'value', nameRotate: 1, splitLine: { show: true, lineStyle: { ...
2019-11-05 17:32:37
260
原创 MYSQL sql随笔持续更新
一行sql根据某个字段拆分成多个示例:未处理前:处理后:代码: 技术点:使用substring_index 2次,间隔“,”和“:”,提出自己想要的SELECT substring_index( substring_index( menuData.dataResource_source_table, ',', b.help_topic_id + 1 ), ':',- 1...
2019-10-28 19:33:18
117
原创 Navicat12注册
https://github.com/DoubleLabyrinth/navicat-keygen/blob/windows/doc/how-to-use.windows.zh-CN.md
2019-10-21 14:35:26
897
2
原创 mysql在win&linux下安装
在win64下安装mysql的zip包mysql国内镜像 mysql国内镜像解压mysql到指定文件夹,并创建data文件夹[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-TR1torZS-1571386835038)(mysql安装win64zip_files/1.jpg)]创建my.ini (如果不存在)[mysqld]port = 3306base...
2019-10-18 16:24:20
165
原创 python开发爬虫随笔
写在文档之前的一句话哎!Boss说要搞20台采集集群,传统的java爬虫,真的没啥好用的,webmagic,gecco的都用过,很早之前,接触过scrapy,感觉python的scrapy实现分布式爬虫很爽,没办法,一大把年纪了,是否要搞搞python,以后和boss交流的时候,还能怼他几句,多么单纯的想法。python解释器(这些东西没啥用就是吹nb用的)python的解释器:1.cp...
2019-10-18 16:08:11
426
原创 Ambari大数据平台安装
机器情况机器 版本 主机名10.20.12.24 CentOS Linux release 7.5.1804 (Core) master.bigdata.com10.20.12.27 CentOS Linux release 7.5.1804 (Core) slave2.bigdata.com10.20.12.26 CentOS Linux release 7.5.1804 (Core) ...
2019-10-18 15:49:08
448
原创 FastDFS安装部署,通过nginx支持缩略图
FastDFS安装部署选取3台机器10.20.5.112 trackerServer10.20.5.113 storageServer (group1)10.20.5.114 storageServer (group1)防火墙关闭 selinux关闭略访问余大的GitHub网址下载对应的安装包github网址:(https://github.com/happyfish100)[外...
2019-10-18 15:26:22
306
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人