b078109-优快云博客

转载 spark安装

1、下载地址 http://spark.apache.org/downloads.html2、解压tar -zxvf spark-2.4.4-bin-hadoop2.7.tgz -C /opt/module/3、本地模式运行第一个程bin/spark-submit --class org.apache.spark.examples.SparkPi --e...

2019-09-05 11:44:00 309

转载 hadoop 自定义OutputFormat

1、继承FileOutputFormat，复写getRecordWriter方法/** * @Description:自定义outputFormat，输出数据到不同的文件 */public class FilterOutputFormat extends FileOutputFormat<Text, NullWritable> { @Overri...

2019-08-31 22:50:00 313

转载 hadoop mapreduce求解有序TopN

利用hadoop的map和reduce排序特性实现对数据排序取TopN条数据。代码参考：https://github.com/asker124143222/wordcount1、样本数据，假设是订单数据，求解按订单id排序且每个订单里价格最高前三，从高到低排序。订单ID 商品ID 单价0000001 Pdt_01 222.80000002 Pdt_05 72...

2019-08-31 15:08:00 310

转载 linux 编译源码报错，找不到libXrender.so.1

1、通过xshell连接到服务器编译hadoop源码得时候遇到问题，2、使用Xshell的时候登陆后的环境变量中会比SecureCRT登陆后的环境变量多出一条 DISPLAY=localhost:10.0，根源就是这里，原因是Xshell支持SSH协议下的X11界面。把Xshell属性中的此设置去掉即可解决。3、解决：转载于:https://www.cn...

2019-08-16 11:27:00 876

转载 linux rsync

1、安装sudo yum install rsync.x86_64 -y2、语法，参数rsync [OPTION]... SRC DESTrsync [OPTION]... SRC [USER@]host:DESTrsync [OPTION]... [USER@]HOST:SRC DESTrsync [OPTION]... [USER@]HOST::S...

2019-08-14 14:38:00 213

转载 flink on yarn模式下两种提交job方式

yarn集群搭建，参见hadoop 完全分布式集群搭建通过yarn进行资源管理，flink的任务直接提交到hadoop集群1、hadoop集群启动，yarn需要运行起来。确保配置HADOOP_HOME环境变量。2、flink on yarn的交互图解3、flink运行在yarn模式下，有两种任务提交模式，资源消耗各不相同。第一种y...

2019-08-09 15:33:00 2024

转载 hadoop 完全分布式集群搭建

1、在伪分布式基础上搭建，伪分布式搭建参见VM上Hadoop3.1伪分布式模式搭建2、虚拟机准备，本次集群采用2.8.3版本与3.X版本差别不大，端口号所有差别192.168.44.10 vmhome10.com192.168.44.11 vmhome11.com192.168.44.12 vmhome12.com3、关闭防火墙，因为需要打开的端口太多，测试的...

2019-08-08 16:52:00 135

转载 linux 修改文件打开数量限制

1、查看打开文件数量限制ulimit -aulimit -n2、临时修改ulimit -n 20483、永久修改vi /etc/security/limits.conf追加* soft nofile 65535* hard nofile 65535注意前面的星号(*)要保留转载于:https://www....

2019-08-08 12:35:00 931

转载 flink Periodic Watermarks 自定义周期性水印

1、BoundedOutOfOrdernessGenerator /** * This generator generates watermarks assuming that elements arrive out of order, * but only to a certain degree. The latest elements for a certain ti...

2019-08-07 22:29:00 772

转载 linux ssh免密

1、ssh-keygen -t rsa 生产密钥2、ssh-copy-id 192.168.44.10 发布密钥转载于:https://www.cnblogs.com/asker009/p/11307966.html

2019-08-06 11:38:00 87

转载 flink WaterMark之TumblingEventWindow

1、WaterMark，翻译成水印或水位线，水印翻译更抽象，水位线翻译接地气。watermark是用于处理乱序事件的，通常用watermark机制结合window来实现。流处理从事件产生，到流经source，再到operator，中间是有一个过程和时间的。虽然大部分情况下，流到operator的数据都是按照事件产生的时间顺序来的，但是也不排除由于网络、背压等原因，导致乱序...

2019-08-04 21:27:00 379

转载 flink 并行计数器实现

1、flink实现计数器的灵感来源于Hadoop的MapReduce计算框架里的理念。flink通过实现Accumulator接口实现并行计数。并行管理是由flink实现的。public interface Accumulator<V, R extends Serializable> extends Serializable, Cloneable 计数的结...

2019-07-21 13:00:00 451

转载 flink 批量梯度下降算法线性回归参数求解（Linear Regression with BGD(batch gradient descent) ）...

1、线性回归假设线性函数如下：假设我们有10个样本x1,y1）,(x2,y2).....(x10,y10)，求解目标就是根据多个样本求解theta0和theta1的最优值。什么样的θ最好的呢？最能反映这些样本数据之间的规律呢？为了解决这个问题，我们需要引入误差分析预测值与真实值之间的误差为最小。2、梯度下降算法梯度下降的场景：...

2019-07-17 17:34:00 322

转载 flink KMeans算法实现

更正：之前发的有两个错误。1、K均值聚类算法百度解释：k均值聚类算法（k-means clustering algorithm）是一种迭代求解的聚类分析算法，其步骤是随机选取K个对象作为初始的聚类中心，然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本，聚类的聚类中心会根据聚类中现有的...

2019-07-09 21:36:00 432

转载 flink 实现三角枚举EnumTriangles算法详解

1、三角枚举，从所有无向边对中找到相互连接的三角形/** * @Author: xu.dm * @Date: 2019/7/4 21:31 * @Description: 三角枚举算法 * 三角枚举是在图（数据结构）中找到紧密连接的部分的预处理步骤。三角形由三条边连接，三条边相互连接。 * * 该算法的工作原理如下：它将所有共享一个共同顶点的边(edge)...

2019-07-06 17:39:00 289

转载 flink Transitive Closure算法，实现寻找新的可达路径

flink 使用Transitive Closure算法实现可达路径查找。1、Transitive Closure是翻译闭包传递？我觉得直译不准确，意译应该是传递特性直至特性关闭，也符合本例中传递路径，寻找路径可达，直到可达路径不存在（即关闭）。2、代码很简单，里面有些概念直指核心原理，详细看注释。/** * @Author: xu.dm * @Date: 20...

2019-07-04 10:52:00 234

转载 flink Iterate迭代基本概念

基本概念：在流中创建“反馈（feedback）”循环，通过将一个算子的输出重定向到某个先前的算子。这对于定义不断更新模型的算法特别有用。迭代的数据流向：DataStream → IterativeStream → DataStream以下代码以流开始并连续应用迭代体。大于0的元素将被发送回反馈（feedback）通道，继续迭代，其余元素将向下游转发，离开迭代。Iterat...

2019-07-02 19:25:00 583

转载用jTessBoxEditorFX训练字库

软件下载：https://sourceforge.net/projects/vietocr/files/jTessBoxEditor/官方字库下载：https://github.com/tesseract-ocr/tesseract/wiki/Data-Files#format-of-traineddata-files建议：普通版本和FX版本都下载，用普通版本调整坐标，用FX版本...

2019-07-02 10:31:00 968

转载 flink Reduce、GroupReduce、GroupCombine笔记

1、reduce操作，在分组的dataset上使用，也可以在不分组的dataset上使用应用于分组DataSet的Reduce转换使用用户定义的reduce函数将每个组减少为单个元素。对于每组输入元素，reduce函数连续地将元素对组合成一个元素，直到每个组只剩下一个元素。注意，对于ReduceFunction，返回对象的key字段应与输入值匹配。这是因为reduce是可...

2019-06-30 22:29:00 1280

转载 flink 实现ConnectedComponents 连通分量，增量迭代算法（Delta Iteration）实现详解

1、连通分量是什么？首先需要了解什么是连通图、无向连通图、极大连通子图等概念，这些概念都来自数据结构-图，这里简单介绍一下。下图是连通图和非连通图，都是无向的，这里不扩展有向图：连通分量（connected component）：无向图中的极大连通子图（maximal connected subgraph）称为原图的连通分量。极大连通子图...

2019-06-28 17:29:00 790

转载 java 使用tess4j实现OCR的最简单样例

网上很多教程没有介绍清楚tessdata的位置，以及怎么配置，并且对中文库的描述也存在问题，这里介绍一个最简单的样例。1、使用maven，直接引入依赖，确保你的工程JDK是1.8以上 <dependency> <groupId>net.sourceforge.tess4j</groupId> ...

2019-06-27 17:08:00 220

转载 flink dataset join笔记

1、dataset的join连接，通过key进行关联，一般情况下的join都是inner join，类似sql里的inner joinkey包括以下几种情况：a key expressiona key-selector functionone or more field position keys (Tuple DataSet only).Case Class F...

2019-06-23 21:17:00 342

转载 flink SourceFunction SinkFunction timeWindowAll reduce

1、实现SourceFunction接口生成数据源/** * @Description: 产生数据 traceid,userid,timestamp,status,response time */public class SourceData implements SourceFunction<String> { private volatile...

2019-06-20 22:07:00 271

转载 flink PageRank详解（批量迭代的页面排名算法的基本实现）

1、PageRank算法原理2、基本数据准备/** * numPages缺省15个测试页面 * * EDGES表示从一个pageId指向相连的另外一个pageId */public class PageRankData { public static final Object[][] EDGES = { ...

2019-06-10 20:30:00 351

转载 flink batch wordcount

1、POJO方式public class WordCountPojo { public static class Word{ private String word; private int frequency; public Word() { } public Word(...

2019-05-30 22:57:00 163

转载 flink 安装及wordcount

1、下载http://mirror.bit.edu.cn/apache/flink/2、安装确保已经安装java8以上解压flinktar zxvf flink-1.8.0-bin-scala_2.11.tgz启动本地模式$ ./bin/start-cluster.sh # Start Flink[hadoop@bigdata...

2019-05-26 17:02:00 139

转载 mapreduce方式操作hbase

一、导入数据到hbase1、配置hbase-site.xml指向hdfs<configuration> <property> <name>hbase.rootdir</name> <value>hdfs://bigdata-senior01.home.com:9000/hbase</v...

2019-04-25 23:53:00 155

转载 oracle 慢查询

一、查询执行最慢的sqlselect * from (select sa.SQL_TEXT, sa.SQL_FULLTEXT, sa.EXECUTIONS "执行次数", round(sa.ELAPSED_TIME / 1000000, 2) "总执行时间", round(sa.ELAPSED_TIME ...

2019-04-25 14:35:00 1158

转载 hbase 过滤器属性及其兼容性

内容来自于《HBASE权威指南》，留存备查，由于版本的原因，可能已经有变化，在应用前兼容性需要测试。转载于:https://www.cnblogs.com/asker009/p/10713746.html...

2019-04-15 22:20:00 135

转载 hbase 自定义过滤器

1、首先生成自定义过滤器，生成jar包，然后拷贝到服务器hbase目录的lib下。1.1 自定义过滤器CustomFilterimport com.google.protobuf.InvalidProtocolBufferException;import org.apache.hadoop.hbase.Cell;import org.apache.hadoop.hba...

2019-04-14 19:07:00 364

转载 idea的protobuf使用

1、安装插件2、添加依赖<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" x...

2019-04-14 18:51:00 707

转载 hbase 多个过滤器组合（列表）

使用FilterList要保证过滤器的顺序需要使用List<Filter> private static void mutilFilterData() throws IOException{ Table table = helper.getConnection().getTable(TableName.valueOf("testtable"));...

2019-04-13 21:59:00 555

转载 hbase 跳转过滤器skipfilter

用于跳过整个行键，需要和其他过滤器一起使用，本例SkipFilter和ValueFilter过滤器组合使用过滤不符合条件的行，如果不配合SkipFiter，ValueFilter只过滤单元值包含的列。 private static void skipFilterData() throws IOException{ Table table = helpe...

2019-04-13 17:12:00 202

转载 hbase 分页过滤（新老API的差别）

在hbase2.0以前分页过滤必须以上一次的最后一行+空字节数组作为下一次的起始行，因为scan扫描的时候是包含起始行的，为了既能准确定位起始行，但又不重复把上一次的最末一行加入下一页，所以，权威指南里才有了加上空字节数组的处理。hbase2.0以后，新的api是withStartRow(byte[] startRow, boolean inclusive)，可以直接设置是否...

2019-04-12 23:01:00 258

转载 hbase batch批处理

hbase的put(List<Put> puts)，delete(List<Delete> deletes)，get(List<Get> gets)都是基于batch()实现的。 //批处理数据,测试数据demoTable //注意：同一个rowKey不能同时使用put和delete private static vo...

2019-04-07 22:19:00 593

转载 hbase 原子操作cas

在高并发的情况下，对数据row1 column=cf1:qual1, timestamp=1, value=val1的插入或者更新可能会导致非预期的情况，例如：原本客户端A需要在value=val1的条件下将value更新成val_A，高并发下客户端B可能抢先将数据value=val1更新成value=val_B，这个时候客户端A如果还继续更新将不符合预期。HBase中的CAS...

2019-04-05 22:29:00 460

转载 hbase 基本的JavaApi 数据操作及数据过滤（filter）

本文主要是hbase的表操作、数据操作、数据查询过滤等，如果对JDBC或ADO有了解，容易理解HBASE API。hbase版本是2.0。1、为了方便先贴helper的部分代码（文末git上有完整的测试代码），主要是为了复用Connection。public class HBaseHelper implements Closeable { private C...

2019-03-30 12:49:00 232

转载获取和验证Windows AD域的用户信息

1、获取windows AD域用户信息，首先需要有一个ad域管理员权限的账号，用这个账号连接ad域，获取所有域用户信息用LdapContext，它继承自DirContextpublic Object getAllAdUserNames() { List<String> list = new ArrayList<>(); ...

2019-03-28 16:25:00 2274

转载 hbase 安装笔记

1、安装在官方镜像站点下载hbase2.0，地址：https://www.apache.org/dyn/closer.lua/hbase/解压tar xzvf hbase-2.0.4-bin.tar.gz设置好JAVA_HOME环境变量，或者直接在hbase的配置文件(conf/hbase-env.sh)里设置JAVA_HOME设置HBASE_HOME，这个不是必...

2019-03-17 12:23:00 112

转载 hive 一次性命令

1、用hive查询，而不进入hive cli，查询后的值可以保存到文件中#使用参数-e[hadoop@bigdata-senior01 ~]$ hive -e "select * from busdata.weather_count"OK1990 9001991 8871992 9091993 9231994 873...

2019-03-12 23:08:00 123

空空如也

空空如也