自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(131)
  • 收藏
  • 关注

转载 spark安装

1、下载地址 http://spark.apache.org/downloads.html2、解压tar -zxvf spark-2.4.4-bin-hadoop2.7.tgz -C /opt/module/3、本地模式运行第一个程bin/spark-submit --class org.apache.spark.examples.SparkPi --e...

2019-09-05 11:44:00 309

转载 hadoop 自定义OutputFormat

1、继承FileOutputFormat,复写getRecordWriter方法/** * @Description:自定义outputFormat,输出数据到不同的文件 */public class FilterOutputFormat extends FileOutputFormat<Text, NullWritable> { @Overri...

2019-08-31 22:50:00 313

转载 hadoop mapreduce求解有序TopN

利用hadoop的map和reduce排序特性实现对数据排序取TopN条数据。代码参考:https://github.com/asker124143222/wordcount1、样本数据,假设是订单数据,求解按订单id排序且每个订单里价格最高前三,从高到低排序。订单ID 商品ID 单价0000001 Pdt_01 222.80000002 Pdt_05 72...

2019-08-31 15:08:00 310

转载 linux 编译源码报错,找不到libXrender.so.1

1、通过xshell连接到服务器编译hadoop源码得时候遇到问题,2、使用Xshell的时候登陆后的环境变量中会比SecureCRT登陆后的环境变量多出一条 DISPLAY=localhost:10.0,根源就是这里,原因是Xshell支持SSH协议下的X11界面。把Xshell属性中的此设置去掉即可解决。3、解决:转载于:https://www.cn...

2019-08-16 11:27:00 876

转载 linux rsync

1、安装sudo yum install rsync.x86_64 -y2、语法,参数rsync [OPTION]... SRC DESTrsync [OPTION]... SRC [USER@]host:DESTrsync [OPTION]... [USER@]HOST:SRC DESTrsync [OPTION]... [USER@]HOST::S...

2019-08-14 14:38:00 213

转载 flink on yarn模式下两种提交job方式

yarn集群搭建,参见hadoop 完全分布式集群搭建通过yarn进行资源管理,flink的任务直接提交到hadoop集群1、hadoop集群启动,yarn需要运行起来。确保配置HADOOP_HOME环境变量。2、flink on yarn的交互图解3、flink运行在yarn模式下,有两种任务提交模式,资源消耗各不相同。第一种y...

2019-08-09 15:33:00 2024

转载 hadoop 完全分布式集群搭建

1、在伪分布式基础上搭建,伪分布式搭建参见VM上Hadoop3.1伪分布式模式搭建2、虚拟机准备,本次集群采用2.8.3版本与3.X版本差别不大,端口号所有差别192.168.44.10 vmhome10.com192.168.44.11 vmhome11.com192.168.44.12 vmhome12.com3、关闭防火墙,因为需要打开的端口太多,测试的...

2019-08-08 16:52:00 135

转载 linux 修改文件打开数量限制

1、查看打开文件数量限制ulimit -aulimit -n2、临时修改ulimit -n 20483、永久修改vi /etc/security/limits.conf追加* soft nofile 65535* hard nofile 65535注意前面的星号(*)要保留转载于:https://www....

2019-08-08 12:35:00 931

转载 flink Periodic Watermarks 自定义周期性水印

1、BoundedOutOfOrdernessGenerator /** * This generator generates watermarks assuming that elements arrive out of order, * but only to a certain degree. The latest elements for a certain ti...

2019-08-07 22:29:00 772

转载 linux ssh免密

1、ssh-keygen -t rsa 生产密钥2、ssh-copy-id 192.168.44.10 发布密钥转载于:https://www.cnblogs.com/asker009/p/11307966.html

2019-08-06 11:38:00 87

转载 flink WaterMark之TumblingEventWindow

1、WaterMark,翻译成水印或水位线,水印翻译更抽象,水位线翻译接地气。watermark是用于处理乱序事件的,通常用watermark机制结合window来实现。流处理从事件产生,到流经source,再到operator,中间是有一个过程和时间的。虽然大部分情况下,流到operator的数据都是按照事件产生的时间顺序来的,但是也不排除由于网络、背压等原因,导致乱序...

2019-08-04 21:27:00 379

转载 flink 并行计数器实现

1、flink实现计数器的灵感来源于Hadoop的MapReduce计算框架里的理念。flink通过实现Accumulator接口实现并行计数。并行管理是由flink实现的。public interface Accumulator<V, R extends Serializable> extends Serializable, Cloneable 计数的结...

2019-07-21 13:00:00 451

转载 flink 批量梯度下降算法线性回归参数求解(Linear Regression with BGD(batch gradient descent) )...

1、线性回归假设线性函数如下:假设我们有10个样本x1,y1),(x2,y2).....(x10,y10),求解目标就是根据多个样本求解theta0和theta1的最优值。什么样的θ最好的呢?最能反映这些样本数据之间的规律呢?为了解决这个问题,我们需要引入误差分析预测值与真实值之间的误差为最小。2、梯度下降算法梯度下降的场景:...

2019-07-17 17:34:00 322

转载 flink KMeans算法实现

更正:之前发的有两个错误。1、K均值聚类算法百度解释:k均值聚类算法(k-means clustering algorithm)是一种迭代求解的聚类分析算法,其步骤是随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本,聚类的聚类中心会根据聚类中现有的...

2019-07-09 21:36:00 432

转载 flink 实现三角枚举EnumTriangles算法详解

1、三角枚举,从所有无向边对中找到相互连接的三角形/** * @Author: xu.dm * @Date: 2019/7/4 21:31 * @Description: 三角枚举算法 * 三角枚举是在图(数据结构)中找到紧密连接的部分的预处理步骤。三角形由三条边连接,三条边相互连接。 * * 该算法的工作原理如下:它将所有共享一个共同顶点的边(edge)...

2019-07-06 17:39:00 289

转载 flink Transitive Closure算法,实现寻找新的可达路径

flink 使用Transitive Closure算法实现可达路径查找。1、Transitive Closure是翻译闭包传递?我觉得直译不准确,意译应该是传递特性直至特性关闭,也符合本例中传递路径,寻找路径可达,直到可达路径不存在(即关闭)。2、代码很简单,里面有些概念直指核心原理,详细看注释。/** * @Author: xu.dm * @Date: 20...

2019-07-04 10:52:00 234

转载 flink Iterate迭代基本概念

基本概念:在流中创建“反馈(feedback)”循环,通过将一个算子的输出重定向到某个先前的算子。这对于定义不断更新模型的算法特别有用。迭代的数据流向:DataStream → IterativeStream → DataStream以下代码以流开始并连续应用迭代体。大于0的元素将被发送回反馈(feedback)通道,继续迭代,其余元素将向下游转发,离开迭代。Iterat...

2019-07-02 19:25:00 583

转载 用jTessBoxEditorFX训练字库

软件下载:https://sourceforge.net/projects/vietocr/files/jTessBoxEditor/官方字库下载:https://github.com/tesseract-ocr/tesseract/wiki/Data-Files#format-of-traineddata-files建议:普通版本和FX版本都下载,用普通版本调整坐标,用FX版本...

2019-07-02 10:31:00 968

转载 flink Reduce、GroupReduce、GroupCombine笔记

1、reduce操作,在分组的dataset上使用,也可以在不分组的dataset上使用应用于分组DataSet的Reduce转换使用用户定义的reduce函数将每个组减少为单个元素。对于每组输入元素,reduce函数连续地将元素对组合成一个元素,直到每个组只剩下一个元素。注意,对于ReduceFunction,返回对象的key字段应与输入值匹配。这是因为reduce是可...

2019-06-30 22:29:00 1280

转载 flink 实现ConnectedComponents 连通分量,增量迭代算法(Delta Iteration)实现详解

1、连通分量是什么?首先需要了解什么是连通图、无向连通图、极大连通子图等概念,这些概念都来自数据结构-图,这里简单介绍一下。下图是连通图和非连通图,都是无向的,这里不扩展有向图:连通分量(connected component):无向图中的极大连通子图(maximal connected subgraph)称为原图的连通分量。极大连通子图...

2019-06-28 17:29:00 790

转载 java 使用tess4j实现OCR的最简单样例

网上很多教程没有介绍清楚tessdata的位置,以及怎么配置,并且对中文库的描述也存在问题,这里介绍一个最简单的样例。1、使用maven,直接引入依赖,确保你的工程JDK是1.8以上 <dependency> <groupId>net.sourceforge.tess4j</groupId> ...

2019-06-27 17:08:00 220

转载 flink dataset join笔记

1、dataset的join连接,通过key进行关联,一般情况下的join都是inner join,类似sql里的inner joinkey包括以下几种情况:a key expressiona key-selector functionone or more field position keys (Tuple DataSet only).Case Class F...

2019-06-23 21:17:00 342

转载 flink SourceFunction SinkFunction timeWindowAll reduce

1、实现SourceFunction接口生成数据源/** * @Description: 产生数据 traceid,userid,timestamp,status,response time */public class SourceData implements SourceFunction<String> { private volatile...

2019-06-20 22:07:00 271

转载 flink PageRank详解(批量迭代的页面排名算法的基本实现)

1、PageRank算法原理2、基本数据准备/** * numPages缺省15个测试页面 * * EDGES表示从一个pageId指向相连的另外一个pageId */public class PageRankData { public static final Object[][] EDGES = { ...

2019-06-10 20:30:00 351

转载 flink batch wordcount

1、POJO方式public class WordCountPojo { public static class Word{ private String word; private int frequency; public Word() { } public Word(...

2019-05-30 22:57:00 163

转载 flink 安装及wordcount

1、下载http://mirror.bit.edu.cn/apache/flink/2、安装确保已经安装java8以上解压flinktar zxvf flink-1.8.0-bin-scala_2.11.tgz启动本地模式$ ./bin/start-cluster.sh # Start Flink[hadoop@bigdata...

2019-05-26 17:02:00 139

转载 mapreduce方式操作hbase

一、导入数据到hbase1、配置hbase-site.xml指向hdfs<configuration> <property> <name>hbase.rootdir</name> <value>hdfs://bigdata-senior01.home.com:9000/hbase</v...

2019-04-25 23:53:00 155

转载 oracle 慢查询

一、查询执行最慢的sqlselect * from (select sa.SQL_TEXT, sa.SQL_FULLTEXT, sa.EXECUTIONS "执行次数", round(sa.ELAPSED_TIME / 1000000, 2) "总执行时间", round(sa.ELAPSED_TIME ...

2019-04-25 14:35:00 1158

转载 hbase 过滤器属性及其兼容性

内容来自于《HBASE权威指南》,留存备查,由于版本的原因,可能已经有变化,在应用前兼容性需要测试。转载于:https://www.cnblogs.com/asker009/p/10713746.html...

2019-04-15 22:20:00 135

转载 hbase 自定义过滤器

1、首先生成自定义过滤器,生成jar包,然后拷贝到服务器hbase目录的lib下。1.1 自定义过滤器CustomFilterimport com.google.protobuf.InvalidProtocolBufferException;import org.apache.hadoop.hbase.Cell;import org.apache.hadoop.hba...

2019-04-14 19:07:00 364

转载 idea的protobuf使用

1、安装插件2、添加依赖<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" x...

2019-04-14 18:51:00 707

转载 hbase 多个过滤器组合(列表)

使用FilterList要保证过滤器的顺序需要使用List<Filter> private static void mutilFilterData() throws IOException{ Table table = helper.getConnection().getTable(TableName.valueOf("testtable"));...

2019-04-13 21:59:00 555

转载 hbase 跳转过滤器skipfilter

用于跳过整个行键,需要和其他过滤器一起使用,本例SkipFilter和ValueFilter过滤器组合使用过滤不符合条件的行,如果不配合SkipFiter,ValueFilter只过滤单元值包含的列。 private static void skipFilterData() throws IOException{ Table table = helpe...

2019-04-13 17:12:00 202

转载 hbase 分页过滤(新老API的差别)

在hbase2.0以前分页过滤必须以上一次的最后一行+空字节数组作为下一次的起始行,因为scan扫描的时候是包含起始行的,为了既能准确定位起始行,但又不重复把上一次的最末一行加入下一页,所以,权威指南里才有了加上空字节数组的处理。hbase2.0以后,新的api是withStartRow(byte[] startRow, boolean inclusive),可以直接设置是否...

2019-04-12 23:01:00 258

转载 hbase batch批处理

hbase的put(List<Put> puts),delete(List<Delete> deletes),get(List<Get> gets)都是基于batch()实现的。 //批处理数据,测试数据demoTable //注意:同一个rowKey不能同时使用put和delete private static vo...

2019-04-07 22:19:00 593

转载 hbase 原子操作cas

在高并发的情况下,对数据row1 column=cf1:qual1, timestamp=1, value=val1的插入或者更新可能会导致非预期的情况,例如:原本客户端A需要在value=val1的条件下将value更新成val_A,高并发下客户端B可能抢先将数据value=val1更新成value=val_B,这个时候客户端A如果还继续更新将不符合预期。HBase中的CAS...

2019-04-05 22:29:00 460

转载 hbase 基本的JavaApi 数据操作及数据过滤(filter)

本文主要是hbase的表操作、数据操作、数据查询过滤等,如果对JDBC或ADO有了解,容易理解HBASE API。hbase版本是2.0。1、为了方便先贴helper的部分代码(文末git上有完整的测试代码),主要是为了复用Connection。public class HBaseHelper implements Closeable { private C...

2019-03-30 12:49:00 232

转载 获取和验证Windows AD域的用户信息

1、获取windows AD域用户信息,首先需要有一个ad域管理员权限的账号,用这个账号连接ad域,获取所有域用户信息用LdapContext,它继承自DirContextpublic Object getAllAdUserNames() { List<String> list = new ArrayList<>(); ...

2019-03-28 16:25:00 2274

转载 hbase 安装笔记

1、安装在官方镜像站点下载hbase2.0,地址:https://www.apache.org/dyn/closer.lua/hbase/解压tar xzvf hbase-2.0.4-bin.tar.gz设置好JAVA_HOME环境变量,或者直接在hbase的配置文件(conf/hbase-env.sh)里设置JAVA_HOME设置HBASE_HOME,这个不是必...

2019-03-17 12:23:00 112

转载 hive 一次性命令

1、用hive查询,而不进入hive cli,查询后的值可以保存到文件中#使用参数-e[hadoop@bigdata-senior01 ~]$ hive -e "select * from busdata.weather_count"OK1990 9001991 8871992 9091993 9231994 873...

2019-03-12 23:08:00 123

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除