- 博客(41)
- 收藏
- 关注
原创 java 实现穷举算法
参考:https://blog.youkuaiyun.com/changyuanchn/article/details/51417796题目/** * * [0-1背包问题]有一个背包,背包容量是M=150kg。有7个物品,物品不可以分割成任意大小。 * 要求尽可能让装入背包中的物品总价值最大,但不能超过总容量。 * 物品 A B C D E F G * 重量 35kg 30kg 6kg 50kg 40kg 10kg 25kg * 价值 10 40 30
2021-01-04 17:33:29
1189
原创 spark scala.util.control.BreakControl
org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 12.0 failed 1 times, most recent failure: Lost task 0.0 in stage 12.0 (TID 18, localhost, executor driver): scala.uti...
2020-03-23 17:31:50
406
原创 java Djava.ext.dir
jar -jar 指定lib启动java -Xms1g -Xmx4g -Djava.ext.dirs=/opt/test/lib -jar /opt/test/untitled.jar提示报错用-Djava.ext.dirs=指定lib的会覆盖系统ext包 所以需要重新指定系统ext包java -Xms1g -Xmx4g -Djava.ext.dirs=/opt/te...
2020-01-10 16:21:57
482
1
原创 将当前目录下所有jar合并成一个jar
在linux上1.进入当前目录解压所有jar通过jar解压命令将jar包全部解压,命令为 >jar –xvf xx.jar;如果jar太多了 可以编写个shell脚本解压1.touch run.sh2.vim run.sh3.进入编辑模式 然后保存#!/bin/bashfor wav in ./*.jar; do echo "Extracting...
2019-09-10 15:45:53
769
原创 mr中理解分区和分组(转)
原文链接:https://blog.youkuaiyun.com/qq_21292551/article/details/502613911.MapReduce中数据流动(1)最简单的过程:map-reduce(2)定制了partitioner以将map的结果送往指定reducer的过程: map-partition-reduce(3)增加了在本地先进性一次reduce(优化)...
2019-08-29 11:58:37
1192
1
原创 MapReduce中自定义文件输出名
import org.apache.hadoop.fs.FSDataOutputStream;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.RecordWr...
2019-08-23 14:46:27
175
原创 父子类强转失败 类加载器隔离问题
今天遇到一个BUG 在做调试的时候发现子类不能强转父类。。DEBUG一下 发现 instanceof 结果是false回想一下 在Oracle的时候驱动有两个版本 都是自定义类加载器去加载驱动(为了区分Oracle版本)...
2019-08-01 10:50:16
612
原创 最大堆排序最小堆排序
//堆是一种完全二叉树 就是每个节点都有两个子节点public static void maxHeapSort(int[] arrays,int node,int size){ //获取左节点和右节点位置 int left = node*2+1; int right = node * 2 +2 ; //假设node 是最...
2019-07-19 16:07:58
213
原创 实时计算工具库 stream-lib 分位数计算 T-Digest 求中位数
图片来源https://dataorigami.net/blogs/napkin-folding/19055451-percentile-and-quantile-estimation-of-big-data-the-t-digest中位数、95% 分位数,这类计算在描述性统计中很常见。相较于平均数,中位数不会受到异常值的影响,但它的计算过程比较复杂,需要保留所有具体值,排序后取得中间位...
2019-07-12 09:52:08
2145
原创 实时计算工具库 stream-lib Top K 排名 CountMinSketch
图片来源https://stackoverflow.com/questions/6811351/explaining-the-count-sketch-algorithm/35356116#35356116CountMinSketch是一种“速写”算法,能够使用较小的空间勾勒出数据集内各类事件的频次。比如,我们可以统计出当前最热门的推特内容,或是计算网站访问量最大的页面。当然,这一算法...
2019-07-12 09:48:21
538
原创 实时计算工具库 stream-lib 唯一值计算 HyperLogLog
独立访客(UV)是网站的重要指标之一。我们通常会为每一个用户生成一个 UUID,并在 HTTP Cookie 中记录和跟踪,或直接使用 IP 地址做近似计算。我们可以使用一个 HashSet 来计算 UV 的准确值,但无疑会占用大量的空间。HyperLogLog 则是一种近似算法,用于解决此类唯一值计算的问题。该算法在对超过 10^9 个唯一值进行计算时可以做到 2% 的标准差,并只占用 1.5 ...
2019-07-12 09:44:19
536
原创 大数据算法-重复率计算 ICardinality
import com.clearspring.analytics.stream.cardinality.ICardinality;// 重复率计算器private ICardinality repeatCardinality = AdaptiveCounting.Builder.obyCount(Integer.MAX_VALUE).build();//重复率repeatC...
2019-07-12 09:41:47
1782
原创 中文分词器hankcs/HanLP简单使用
githubhttps://github.com/hankcs/HanLPmaven坐标<dependency> <groupId>com.hankcs</groupId> <artifactId>hanlp</artifactId> <version>portable-1.7.4</ver...
2019-07-12 09:37:17
3816
原创 FuzzyWuzzy:字符串匹对得分计算
最近的项目需要在大数据里面匹对字典里面最意思相近的字符串两个字符串之间匹对的准确率得分计算 使用FuzzyWuzzy可以简单计算出分数FuzzyWuzzy 是一个简单易用的模糊字符串匹配工具包。它依据Levenshtein Distance 算法计算两个序列之间的差异。Levenshtein Distance算法,又叫Edit Distance算法,是指两个字符串...
2019-07-12 09:32:40
1063
原创 kafka httpclient connectors rest api
导入两个Httpclient包 kakfa 使用httpclient测试 connectors restAPI 测试public enum HttpEnum { HTTP("http://"), HTTP_GET("get"), HTTP_POST("post"), HTTP_PUT("put"), HTTP_DELETE("delete"), ...
2019-06-04 12:35:05
800
原创 kafka集群版 connectors 通过REST API实现控制
之前一直用单机版控制connectors 测试两台服务器为什么不能实现mysql增量同步 原来单机模式不支持 只能集群模式集群模式是通过REST API实现的linux常用命令如下: curl -s <Kafka Connect Worker URL>:8083/ 获取 Connect Worker 信息 curl -s <Kafka Conn...
2019-05-31 16:16:47
1518
1
原创 安装kafka单机版
前提条件 安装jdk 略1.安装zookeeper-3.4.9.tar.gz原来没有zoo.cfg配置文件的 复制一份 改dataDir输入位置即可解压 进入conf cp zoo_sample.cfg zoo.cfgtickTime=2000initLimit=10syncLimit=5dataDir=/opt/test/zookpeeper/zookeeper-3.4.9/...
2019-05-28 15:40:48
2415
原创 MLSQL 概念
MLSQL不只是一门语言,也是一个分布式计算引擎。MLSQL可以实现批处理,流式处理,机器学习,爬虫,API服务等多领域功能。MLSQL 目前由三部分构成:1.MLSQL EngineMLSQL-Engine 是一个分布式执行引擎,可以解释执行MLSQL 脚本。用户可以使用http协议和MLSQL-Engine进行交互。MLSQL-Engine 内核为Spark,所以它可以运行在多个...
2019-05-22 17:02:43
1158
原创 关于springmvc拦截器 controll aop执行顺序
拦截器部分代码control部分代码aop部分代码执行之后的结果可以看出进入顺序是 1.拦截器preHandle- 2.control-aop- 3.拦截器postHandle- 4.拦截器afterCompletion- 5.拦截器preHandle1 2 3 4 步骤都是同一个线程处理 在最后一个步骤还会执行一次拦截器pre方法 但是是另外调用新的线程 ...
2018-08-20 14:27:02
1193
原创 System.getProperty("user.dir") 在linux和window tomcat的位置
windows系统中 tomcat运行项目 其中System.getProperty("user.dir") 输出的位置是当前tomcat所在的位置的bin目录linux System.getProperty("user.dir")输出的位置是当前tomcat所在位置webapps目录里...
2018-08-17 11:03:22
10039
1
转载 bat发布成服务
命令 sc create ElasticSearch binPath= "D:\elasticsearch-5.2.0\bin\elasticsearch.bat" type= share start= auto displayname= "elasticSearch Services" 描述: 在注册表和服务数据库中创建服务项。用法: sc &...
2018-07-31 15:40:35
2543
原创 es searchResponse.getAggregations().get("xxx")用法
这里分组根据时间字符串SearchResponse searchResponse = client.prepareSearch("company") .addAggregation(AggregationBuilders.terms("group_country").field("country") .subAggregation(Aggregatio...
2018-07-31 15:32:55
10739
转载 定制自己的分词器
standard tokenizer:以单词边界进行切分standard token filter:什么都不做lowercase token filter:将所有字母转换为小写stop token filer(默认被禁用):移除停用词,比如a the it等等定制化自己的分词器PUT /my_index{ "settings": { "analysis": { ...
2018-07-30 14:30:06
345
原创 fielddata fields type不能为text
测试 PUT /test123/type111/1{ "aaaa": "test aaaa", "test1": "content aaaa", "test2": "2018-01-01", "test3": 110}GET /test123/type111/_search{ "query": {
2018-07-30 11:04:34
922
转载 webSocket
一直以为ServerSocket是webSockethttps://www.cnblogs.com/xdp-gacl/p/5193279.html 亲测可用 需要打war放在tomcat运行即可 编译器直接启动会失败
2018-07-23 17:37:51
143
原创 java自动导出数据库
需要在数据库所在的服务器执行;java文件:import java.io.BufferedReader;import java.io.InputStream;import java.io.InputStreamReader;import java.util.Scanner;public class ExportDatabase { String fileLocati...
2018-07-23 14:20:02
384
转载 ubuntu nginx安装
https://blog.youkuaiyun.com/q549244663/article/details/70315339
2018-07-13 16:19:51
193
转载 windows tomcat设置成服务自动启动
windows tomcat做成服务 实际上在bin目录下面有个service.bat 双击即可一般开发人员习惯命令https://www.cnblogs.com/tommy-huang/p/6240083.html 也可以换成命令启动 设置成功后还需要去设置开关机自动开启 命令窗口services.msc 找到对应的tomcat 右键属性去设置自动即可...
2018-06-04 09:47:40
341
转载 pdf模板 java后端实现
后端生成pdf不漂亮 目前公司是前端做成pdf模板链接https://github.com/superad/pdf-kit
2018-05-24 15:01:52
572
转载 netty样例
https://github.com/menacher/nerdronix/tree/master/spring-netty/src/main
2018-05-23 14:19:05
201
转载 window 部署redis集群
https://blog.youkuaiyun.com/qiuyufeng/article/details/70474001
2018-05-22 15:52:03
98
转载 java自定义native方法 即java调用C函数
https://jingyan.baidu.com/article/6c67b1d68e33bc2787bb1ee6.html
2018-05-15 17:59:32
743
转载 安装hadoop mysql驱动包问题
https://blog.youkuaiyun.com/shenliang1985/article/details/51478151
2018-05-11 15:20:56
987
原创 responseBody返回jsonp格式
因为项目发布在公司自己服务器,没有绑定域名,只能在局域网之内使用。前端说正常访问不到,因为同源策略的原因,只能用jsonp请求。jsonp要求返回的格式前面加多一个名字,包裹着json串,接口大部分都是写好的,而且代码中用的都是@ResponseBody注解,如果要在代码用fastJson转json,完成这样的格式。相对来说会麻烦很多。个人百度看了好几篇文章。http://blog.csd
2017-11-10 09:40:13
6107
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人