wwq_vracle-优快云博客

原创 java 实现穷举算法

参考:https://blog.youkuaiyun.com/changyuanchn/article/details/51417796题目/** * * [0-1背包问题]有一个背包，背包容量是M=150kg。有7个物品，物品不可以分割成任意大小。 * 要求尽可能让装入背包中的物品总价值最大，但不能超过总容量。 * 物品 A B C D E F G * 重量 35kg 30kg 6kg 50kg 40kg 10kg 25kg * 价值 10 40 30

2021-01-04 17:33:29 1242

原创 spark scala.util.control.BreakControl

org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 12.0 failed 1 times, most recent failure: Lost task 0.0 in stage 12.0 (TID 18, localhost, executor driver): scala.uti...

2020-03-23 17:31:50 460

原创 java Djava.ext.dir

jar -jar 指定lib启动java -Xms1g -Xmx4g -Djava.ext.dirs=/opt/test/lib -jar /opt/test/untitled.jar提示报错用-Djava.ext.dirs=指定lib的会覆盖系统ext包所以需要重新指定系统ext包java -Xms1g -Xmx4g -Djava.ext.dirs=/opt/te...

2020-01-10 16:21:57 509 1

原创将当前目录下所有jar合并成一个jar

在linux上1.进入当前目录解压所有jar通过jar解压命令将jar包全部解压，命令为 >jar –xvf xx.jar;如果jar太多了可以编写个shell脚本解压1.touch run.sh2.vim run.sh3.进入编辑模式然后保存#!/bin/bashfor wav in ./*.jar; do echo "Extracting...

2019-09-10 15:45:53 802

原创 mr中理解分区和分组(转)

原文链接：https://blog.youkuaiyun.com/qq_21292551/article/details/502613911.MapReduce中数据流动（1）最简单的过程：map-reduce（2）定制了partitioner以将map的结果送往指定reducer的过程：　map-partition-reduce（3）增加了在本地先进性一次reduce（优化）...

2019-08-29 11:58:37 1224 1

原创 MapReduce中自定义文件输出名

import org.apache.hadoop.fs.FSDataOutputStream;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.RecordWr...

2019-08-23 14:46:27 201

原创父子类强转失败类加载器隔离问题

今天遇到一个BUG 在做调试的时候发现子类不能强转父类。。DEBUG一下发现 instanceof 结果是false回想一下在Oracle的时候驱动有两个版本都是自定义类加载器去加载驱动(为了区分Oracle版本)...

2019-08-01 10:50:16 641

原创最大堆排序最小堆排序

//堆是一种完全二叉树就是每个节点都有两个子节点public static void maxHeapSort(int[] arrays,int node,int size){ //获取左节点和右节点位置 int left = node*2+1; int right = node * 2 +2 ; //假设node 是最...

2019-07-19 16:07:58 243

原创实时计算工具库 stream-lib 分位数计算 T-Digest 求中位数

图片来源https://dataorigami.net/blogs/napkin-folding/19055451-percentile-and-quantile-estimation-of-big-data-the-t-digest中位数、95% 分位数，这类计算在描述性统计中很常见。相较于平均数，中位数不会受到异常值的影响，但它的计算过程比较复杂，需要保留所有具体值，排序后取得中间位...

2019-07-12 09:52:08 2278

原创实时计算工具库 stream-lib Top K 排名 CountMinSketch

图片来源https://stackoverflow.com/questions/6811351/explaining-the-count-sketch-algorithm/35356116#35356116CountMinSketch是一种“速写”算法，能够使用较小的空间勾勒出数据集内各类事件的频次。比如，我们可以统计出当前最热门的推特内容，或是计算网站访问量最大的页面。当然，这一算法...

2019-07-12 09:48:21 578

原创实时计算工具库 stream-lib 唯一值计算 HyperLogLog

独立访客（UV）是网站的重要指标之一。我们通常会为每一个用户生成一个 UUID，并在 HTTP Cookie 中记录和跟踪，或直接使用 IP 地址做近似计算。我们可以使用一个 HashSet 来计算 UV 的准确值，但无疑会占用大量的空间。HyperLogLog 则是一种近似算法，用于解决此类唯一值计算的问题。该算法在对超过 10^9 个唯一值进行计算时可以做到 2% 的标准差，并只占用 1.5 ...

2019-07-12 09:44:19 569

原创大数据算法-重复率计算 ICardinality

import com.clearspring.analytics.stream.cardinality.ICardinality;// 重复率计算器private ICardinality repeatCardinality = AdaptiveCounting.Builder.obyCount(Integer.MAX_VALUE).build();//重复率repeatC...

2019-07-12 09:41:47 1826

原创中文分词器hankcs/HanLP简单使用

githubhttps://github.com/hankcs/HanLPmaven坐标<dependency> <groupId>com.hankcs</groupId> <artifactId>hanlp</artifactId> <version>portable-1.7.4</ver...

2019-07-12 09:37:17 3933

原创 FuzzyWuzzy：字符串匹对得分计算

最近的项目需要在大数据里面匹对字典里面最意思相近的字符串两个字符串之间匹对的准确率得分计算使用FuzzyWuzzy可以简单计算出分数FuzzyWuzzy 是一个简单易用的模糊字符串匹配工具包。它依据Levenshtein Distance 算法计算两个序列之间的差异。Levenshtein Distance算法，又叫Edit Distance算法，是指两个字符串...

2019-07-12 09:32:40 1131

原创 kafka httpclient connectors rest api

导入两个Httpclient包 kakfa 使用httpclient测试 connectors restAPI 测试public enum HttpEnum { HTTP("http://"), HTTP_GET("get"), HTTP_POST("post"), HTTP_PUT("put"), HTTP_DELETE("delete"), ...

2019-06-04 12:35:05 834

原创 kafka集群版 connectors 通过REST API实现控制

之前一直用单机版控制connectors 测试两台服务器为什么不能实现mysql增量同步原来单机模式不支持只能集群模式集群模式是通过REST API实现的linux常用命令如下： curl -s <Kafka Connect Worker URL>:8083/ 获取 Connect Worker 信息 curl -s <Kafka Conn...

2019-05-31 16:16:47 1598 1

原创安装kafka单机版

前提条件安装jdk 略1.安装zookeeper-3.4.9.tar.gz原来没有zoo.cfg配置文件的复制一份改dataDir输入位置即可解压进入conf cp zoo_sample.cfg zoo.cfgtickTime=2000initLimit=10syncLimit=5dataDir=/opt/test/zookpeeper/zookeeper-3.4.9/...

2019-05-28 15:40:48 2439

原创 MLSQL 概念

MLSQL不只是一门语言，也是一个分布式计算引擎。MLSQL可以实现批处理，流式处理，机器学习，爬虫，API服务等多领域功能。MLSQL 目前由三部分构成：1.MLSQL EngineMLSQL-Engine 是一个分布式执行引擎，可以解释执行MLSQL 脚本。用户可以使用http协议和MLSQL-Engine进行交互。MLSQL-Engine 内核为Spark，所以它可以运行在多个...

2019-05-22 17:02:43 1216

原创 JDK代理和Cglib代理练习

2018-08-23 11:29:21 191

原创关于springmvc拦截器 controll aop执行顺序

拦截器部分代码control部分代码aop部分代码执行之后的结果可以看出进入顺序是 1.拦截器preHandle- 2.control-aop- 3.拦截器postHandle- 4.拦截器afterCompletion- 5.拦截器preHandle1 2 3 4 步骤都是同一个线程处理在最后一个步骤还会执行一次拦截器pre方法但是是另外调用新的线程 ...

2018-08-20 14:27:02 1225

原创 System.getProperty("user.dir") 在linux和window tomcat的位置

windows系统中 tomcat运行项目其中System.getProperty("user.dir") 输出的位置是当前tomcat所在的位置的bin目录linux System.getProperty("user.dir")输出的位置是当前tomcat所在位置webapps目录里...

2018-08-17 11:03:22 10116 1

转载 bat发布成服务

命令 sc create ElasticSearch binPath= "D:\elasticsearch-5.2.0\bin\elasticsearch.bat" type= share start= auto displayname= "elasticSearch Services" 描述: 在注册表和服务数据库中创建服务项。用法: sc &...

2018-07-31 15:40:35 2574

原创 es searchResponse.getAggregations().get("xxx")用法

这里分组根据时间字符串SearchResponse searchResponse = client.prepareSearch("company") .addAggregation(AggregationBuilders.terms("group_country").field("country") .subAggregation(Aggregatio...

2018-07-31 15:32:55 10823

转载定制自己的分词器

standard tokenizer：以单词边界进行切分standard token filter：什么都不做lowercase token filter：将所有字母转换为小写stop token filer（默认被禁用）：移除停用词，比如a the it等等定制化自己的分词器PUT /my_index{ "settings": { "analysis": { ...

2018-07-30 14:30:06 392

原创 fielddata fields type不能为text

测试 PUT /test123/type111/1{ "aaaa": "test aaaa", "test1": "content aaaa", "test2": "2018-01-01", "test3": 110}GET /test123/type111/_search{ "query": {

2018-07-30 11:04:34 969

转载 webSocket

一直以为ServerSocket是webSockethttps://www.cnblogs.com/xdp-gacl/p/5193279.html 亲测可用需要打war放在tomcat运行即可编译器直接启动会失败

2018-07-23 17:37:51 159

原创 java自动导出数据库

需要在数据库所在的服务器执行；java文件：import java.io.BufferedReader;import java.io.InputStream;import java.io.InputStreamReader;import java.util.Scanner;public class ExportDatabase { String fileLocati...

2018-07-23 14:20:02 416

转载 shell 脚本学习

https://www.cnblogs.com/gaosheng-221/p/6794429.html

2018-07-17 10:40:49 120

转载 ubuntu nginx安装

https://blog.youkuaiyun.com/q549244663/article/details/70315339

2018-07-13 16:19:51 215

转载 windows tomcat设置成服务自动启动

windows tomcat做成服务实际上在bin目录下面有个service.bat 双击即可一般开发人员习惯命令https://www.cnblogs.com/tommy-huang/p/6240083.html 也可以换成命令启动设置成功后还需要去设置开关机自动开启命令窗口services.msc 找到对应的tomcat 右键属性去设置自动即可...

2018-06-04 09:47:40 364

转载 pdf模板 java后端实现

后端生成pdf不漂亮目前公司是前端做成pdf模板链接https://github.com/superad/pdf-kit

2018-05-24 15:01:52 596

转载生成图片

https://github.com/xtyxtyx/sorry

2018-05-23 14:42:37 210

转载 netty样例

https://github.com/menacher/nerdronix/tree/master/spring-netty/src/main

2018-05-23 14:19:05 270

转载 window 部署redis集群

https://blog.youkuaiyun.com/qiuyufeng/article/details/70474001

2018-05-22 15:52:03 118

转载 hive安装

https://blog.youkuaiyun.com/pucao_cug/article/details/71773665

2018-05-18 10:44:23 171

转载 mysql 批量插入数据存在就更新

http://blog.itpub.net/29989552/viewspace-2109761/

2018-05-17 17:35:56 937

转载读取十六进制

DataInputStream 可以读取无符号位类似ObjectInputStream

2018-05-16 15:37:37 1372

转载 java自定义native方法即java调用C函数

https://jingyan.baidu.com/article/6c67b1d68e33bc2787bb1ee6.html

2018-05-15 17:59:32 773

转载安装hadoop mysql驱动包问题

https://blog.youkuaiyun.com/shenliang1985/article/details/51478151

2018-05-11 15:20:56 1017

原创 responseBody返回jsonp格式

因为项目发布在公司自己服务器，没有绑定域名，只能在局域网之内使用。前端说正常访问不到，因为同源策略的原因，只能用jsonp请求。jsonp要求返回的格式前面加多一个名字，包裹着json串，接口大部分都是写好的，而且代码中用的都是@ResponseBody注解，如果要在代码用fastJson转json，完成这样的格式。相对来说会麻烦很多。个人百度看了好几篇文章。http://blog.csd

2017-11-10 09:40:13 6153

空空如也

空空如也