勤言不勤语-优快云博客

文章目录一、概念二、核心--Pattern API2.1、个体模式2.1.1、量词2.1.2、条件2.2、组合模式2.2.1、循环模式中的连续性2.2.2、模式操作2.3、模式的检测2.4、匹配事件的提取2.5、处理超时部分模式三、demo四、来源一、概念什么是 CEP：复合事件处理（Complex Event Processing，CEP）Flink cep 是在 flink 中实现的一个复杂事件处理库一个或多个简单事件构成的事件流通过一定的规则匹配，然后输出用户得到的数据–满足规则的复杂事件

2020-07-28 16:50:45 491

转载【Flink】Flink 状态管理

文章目录一、前言二、状态类型2.1、Keyed State2.2、Operator State三、状态横向扩展四、检查点机制4.1、开启检查点4.2、保存点机制五、状态后端5.1、状态管理器分类MemoryStateBackendFsStateBackendRocksDBStateBackend5.2、配置方式六、状态一致性6.1、端到端（end-to-end）6.2、Flink+Kafka 实现端到端的 exactly-once语义七、链接文档一、前言有状态的计算是流处理框架要实现的重要功能，因为稍复

2020-07-21 16:56:16 932 2

原创【Flink】Flink Watermark 机制浅析

文章目录一、前言二、Time三、乱序事件场景和 watermark四、watermark 的分配4.1、With Periodic Watermarks4.2、With Punctuated Watermarks五、Watermark 案例实战六、迟到事件6.1、举例6.2、实战七、并行流中的 Watermark八、总结一、前言Flink 为实时计算提供了三种时间，即事件时间（event time）、摄入时间（ingestion time）和处理时间（processing time）。在进行 windo

2020-07-17 16:51:11 570

原创 Alluxio 简单使用

文章目录一、 Alluxio HA二、HDFS 集成 Alluxio2.1、Configuring core-site.xml2.2、Configuring HADOOP_CLASSPATH三、Spark 集成 Alluxio3.1、配置3.2、Spark SQL 读取 Alluxio四、Hive 集成 Alluxio4.1、配置4.2、Hive 内部表关联 Alluxio4.3、调整原有 hdfs 上的表读取 alluxio一、 Alluxio HA下载 tar 包，这里选择了 2.0 版本，下载

2020-05-26 16:50:49 771

原创【Hadoop】Hadoop 2.9.2 HA安装

文章目录一、准备二、修改配置三、分发四、启动环境：Ubuntu 16.04Hadoop 版本：2.9.2一、准备1.1、所有节点修改 /etc/hosts192.168.11.72 master192.168.11.73 node1192.168.11.74 node2192.168.11.75 node3192.168.11.76 node41.2、所有的节点安装 JDK1.下载对应的 jdk 版本2.解压到 /usr/local/lib 下， tar -zxvf jdk-xxx

2020-05-19 10:38:44 369

原创 hbase 总结

一、HBase Get 流程1.1、客户端流程解析客户端首先会根据配置文件中zookeeper地址连接zookeeper，并读取//meta-region-server节点信息，该节点信息存储HBase元数据（hbase:meta）表所在的RegionServer地址以及访问端口等信息。用户可以通过zookeeper命令(get //meta-region-server)查看该节点信息。...

2020-04-22 11:25:40 666

原创【Hadoop】Hadoop Snappy 安装（Ubuntu 16.04）

文章目录一、hadoop checknative二、所需组件三、安装依赖包四、安装 Snappy五、安装 protobuf六、hadoop-src-2.9.2 编译源码七、hadoop 添加 snappy八、hbase 添加 snappy一、hadoop checknative首先检查下 hadoop 是否已经集成 snappy：hadoop checknative -aNative l...

2020-04-16 14:38:36 1562 3

转载【Hive】Hive 优化小结

文章目录一、简述二、表设计层面优化2.1、利用分区表优化2.2、利用桶表优化2.3、选择合适的文件存储格式2.4、选择合适的压缩方式三、分阶段优化3.1、map 阶段优化3.2、reduce 阶段优化四、 SQL 语法优化4.1、列裁剪4.2、分区裁剪4.3、Join优化4.3.1、使用相同的连接键4.3.2、小表 join 大表原则4.3.3、启用 mapjoin4.3.4、桶表 mapjoin...

2019-12-19 18:48:14 367

转载【Java 并发】Java 并发包基石-AQS详解

文章目录一、AQS 介绍二、AQS 使用2.1、使用方式2.2、使用实例2.3、使用测试三、AQS 实现3.1、Node 结点3.2、独占式获取同步状态--acquire()3.3、独占式释放同步状态--release()3.4、共享式获取同步状态--acquireShared3.5、共享式释放同步状态--releaseShared四、总结一、AQS 介绍队列同步器 AbstractQueue...

2019-12-09 11:34:23 415

原创【HBase】HBase phoenix 安装使用

文章目录一、Hbase 集成 Phoneix1.1、下载1.2、解压1.3、拷贝 jar 包至所有节点1.4、开启 schema 与 namespace 的对应关系1.5、重启 HBase1.6、启动 phoneix二、Phoneix 集成 Hbase 创建二级索引2.1、配置2.2、命令行工具 psql 使用2.3、二级索引测试1、正常查询2、创建全局索引3、创建本地索引2.4、二级索引总结1、...

2019-12-07 10:50:07 499

原创【Spark】Spark On Yarn 安装

文章目录一、下载和解压二、配置2.1、配置 spark-default.conf，按需调整2.2、配置 spark-env.sh2.3、配置 slaves2.4、创建目录2.5、拷贝到其他节点2.6、配置环境变量三、启动与测试3.1、启动 Standalone 模式3.2、启动 spark 的 history-server3.3、测试 Yarn 模式一、下载和解压https://archiv...

2019-11-14 14:38:41 939

原创【Hive】Hive 整合映射 HBase

文章目录## 一、前言二、适用场景三、依赖条件四、具体使用4.1、Hive 表映射到 Hbase 中4.2、HBase 表映射到 Hive 表中4.3、Hive Map 类型在 HBase 中的映射4.4、使用 Hive 集成 HBase 表的需注意五、来源## 一、前言HBase 只提供了简单的基于 Key 值的快速查询能力，没法进行大量的条件查询，对于数据分析来说，不太友好。hive ...

2019-11-13 15:07:16 912

原创【Hive】Hive 建表语句详解

文章目录一、hql 建表语法格式二、参数说明三、创建表的三种方式3.1、使用 create 命令3.2、 create table ...as select..(CTAS)3.3、使用 like 创建相同结构的表一、hql 建表语法格式hql不区分大小写，[]里的属性是可选属性。 CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name ...

2019-11-08 14:49:08 1970

原创【Hive】Hive 2.3.4 安装

文章目录一、前期工作二、下载安装2.1、下载2.2、安装2.3、设置环境变量三、创建 hive 所要的 hdfs 目录四、修改 hive 所需配置4.1、配置文件 hive.site.xml4.2、创建及配置 Mysql4.2.1、创建 Hive 数据库4.2.2、配置 Hive 数据库4.2.3、拷贝 JDBC 驱动包4.2.4、初始化 Hive 数据库4.3、配置文件 hive-env.s...

2019-11-07 17:44:05 1014

转载【HBase】HBase 架构

一、简单介绍HBase 存储是基于 Hadoop 的，采用的是 Key/Value 的存储方式，这意味着，随着数据量增大，也几乎不会导致查询的性能下降。HBase 又是一个列式数据库（对比于传统的行式数据库而言），当表字段很多的时候，甚至可以把其中几个字段放在集群的一部分机器上，而另外几个字段放到另外一部分机器上，充分分散了负载压力。数据分析是 HBase 的弱项，因为对于 HBase 乃至整...

2019-10-30 19:42:25 264

转载【Hadoop】MapReduce shuffle 过程详解

非原创，转载自： https://blog.youkuaiyun.com/u014374284/article/details/49205885文章目录一、MapReduce计算模型二、Map shuffle2.1、Partition2.2、Collector2.3、Sort2.4、Spill2.5、Merge三、Reduce shuffle3.1、Copy3.2、Merge Sort四、参考一、MapR...

2019-10-17 14:37:29 428

原创【ES】ElasticSearch 深入分片

文章目录一、分片介绍1.1、主分片1.2、复制分片二、分片的存储2.1、写索引过程2.2、存储原理2.2.1、索引的不可变性2.2.2、段的引入2.2.3、延迟写策略--近实时搜索--fresh2.2.4、持久化--flush2.2.5、合并段三、来源资料一、分片介绍分片是 Elasticsearch 在集群中分发数据的关键。把分片想象成数据的容器。文档存储在分片中，然后分片分配到集群中的节...

2019-10-14 20:04:25 1871

原创【ES】ElasticSearch analyzer 和 analyze API

文章目录一、分词二、分析器 analyzer2.1、简介2.2、中文分析器2.2.1、离线安装2.2.2、在线安装（推荐）2.2.3、 ik_max_word 和 ik_smart 区别2.3、自定义分析器三、analyze api3.1、写时分词3.2、读时分词一、分词搜索引擎的核心是倒排索引，而倒排索引的基础就是分词。所谓分词可以简单理解为将一个完整的句子切割为一个个单词的过程。在 es ...

2019-10-12 16:52:01 1791 1

原创【ES】ElasticSearch 结构化查询和过滤

文章目录@[toc]一、DSL1.1、叶子查询语句1.2、复合查询语句二、Query DSL 和 Filter DSL2.1、Query DSL2.2、Filter DSL2.3、比较三、重要的查询过滤语句3.1、match3.2、multi_match3.3、match_phrase3.4、match_all3.5、term3.6、terms3.7、range3.8、exists3.9、bool...

2019-10-09 20:30:32 688

原创【ES】ElasticSearch 映射（mapping）

文章目录一、定义1.1、动态映射（dynamic mapping）1.2、显式映射（explicit mappings）二、数据类型及支持属性2.1、核心类型（Core datatype）2.2、复合类型（Complex datatypes）2.2.1、对象2.2.2、数组2.2.3、嵌套数据2.3、地理位置类型（Geo datatypes）2.4、特定类型（Specialised dataty...

2019-10-08 20:26:53 563

原创【ES】ElasticSearch 文档操作

【ES】ElasticSearch 文档操作内容来自《ElasticSearch 权威指南》文章目录【ES】ElasticSearch 文档操作一、索引文档1.1、使用自己的 ID1.2、自增 ID1.3、创建一个新文档二、检索文档2.1、检索文档的全部2.2、检索文档的一部分2.3、检查文档是否存在2.4、检索多个文档三、更新文档3.1、整体文档更新3.2、指定版本更新文档3.3、文档局部...

2019-09-29 14:09:52 266

原创【Spark】Spark 基础实践--Spark UDF

文章目录一、Spark SQL 中 UDF 用法二、DataFrame 中 UDF 用法三、UDAF用户定义函数（User-defined functions, UDFs）是大多数 SQL 环境的关键特性，用于扩展系统的内置功能。UDF 允许开发人员通过抽象其低级语言实现来在更高级语言（如 SQL）中启用新功能。一、Spark SQL 中 UDF 用法object SparkSqlUDF {...

2019-09-06 16:39:13 267

转载【Hadoop】Hadoop 小文件处理

【Hadoop】Hadoop 小文件处理文章目录【Hadoop】Hadoop 小文件处理一、什么是小文件二、小文件是如何产生的三、为什么有小文件问题3.1、NameNode 内存管理3.2、MapReduce 性能四、如何解决小文件问题4.1、解决 NameNode 内存问题4.1.1、Hadoop HAR File4.1.2、Federated NameNodes4.2、解决 MapReduc...

2019-08-31 15:18:19 615

原创【Hive】Hive UDF

文章目录一、UDF 介绍二、UDF2.1、简单 UDF2.2、复杂 GenericUDF三、UDAF3.1、AbstractGenericUDAFResolver3.2、GenericUDAFEvaluator3.3、GenericUDAFEvaluator 的方法3.4、图解Model与Evaluator关系3.5、编码实例四、UDTF五、UDF 使用5.1、准备步骤5.2、临时添加 UDF5....

2019-08-15 16:25:43 3457

原创【Hive】Hive Join 介绍

文章目录一、Join二、Join 类型2.1、INNER JOIN 内连接2.2、LEFT OUTER JOIN 左外连接2.3、RIGHT OUTER JOIN 右外连接2.4、FULL OUTER JOIN 全外连接2.5、LEFT SEMI JOIN 左半开连接2.6、JOIN笛卡尔积三、Join 的实现原理3.1、Common Join3.2、Map Join四、Join 优化4.1、BU...

2019-08-13 16:51:12 1150

原创【HBase】HBase 协处理器

文章目录一、协处理器的产生二、协处理器的类型2.1、Observer2.1.1、适用场景2.1.2、Observer 类型2.1.3、执行流程2.2.4、Observer Example2.2、Endpoint2.2.1、适用场景2.2.2、执行流程2.2.3、Endpoint Example三、协处理的加载方式3.1、静态加载与卸载3.1.1、静态加载3.1.2、静态卸载3.2、动态加载与卸载3...

2019-08-03 16:17:27 1561

原创【HBase】HBase 过滤器

一、Filter 介绍一般来说调整表设计就可以优化访问模式。但是有时已经把表设计调整得尽可能好了，为不同访问模式优化得尽可能好了。当仍然需要减少返回客户端的数据时，这就是考虑使用过滤器的时候了。过滤器也被称为下推判断器（push-down predicates），支持把数据过滤标准从客户端下推到服务器，带有 Filter 条件的 RPC 查询请求会把 Filter 分发到各个 RegionSe...

2019-07-27 19:15:24 380

原创【HBase】HBase 自动拆分和预分区

文章目录一、Region 自动拆分二、Region 自动拆分策略2.1、ConstantSizeRegionSplitPolicy2.2、IncreasingToUpperBoundRegionSplitPolicy2.3、SteppingSplitPolicy2.4、KeyPrefixRegionSplitPolicy2.5、DelimitedKeyPrefixRegionSplitPolicy...

2019-07-19 11:09:12 4125

原创【HBase】HBase 列族属性配置

文章目录一、创建表及属性查看二、列族属性配置2.1、版本数量（VERSIONS）2.2、存活时间（TTL）2.3、最小版本数（MIN_VERSIONS ）2.4、保留删除的单元格（KEEP_DELETED_CELLS）2.5、数据块大小（BLOCKSIZE ）2.6、块缓存（BLOCKCACHE）2.7、激进缓存（IN_MEMORY）2.8、压缩（COMPRESSION）2.9、布隆过滤器（BLO...

2019-07-16 17:25:07 5161

原创【HBase】HBase 行健设计

本篇结构：RowKey 的作用RowKey 应该具备的特性RowKey 设计原则RowKey 避免热点的方法RowKey 设计经验RowKey 设计案例剖析参考博文一、RowKey 的作用HBase 由于其存储和读写的高性能，在 OLAP 即时分析中越来越发挥重要的作用。作为 Nosql 数据库的一员，HBase 查询只能通过其 Rowkey 来查询(Rowkey用来表示唯一...

2019-07-13 15:30:19 1080

原创【Scala】Scala 隐式转换 implicit

本篇结构：前言隐式转换类型隐式转换的规则 – 如何寻找隐式转换方法参考博文一、Implicit 简介implicit，即隐式转换，是支撑 Scala 易用、容错以及灵活语法的基础。Scala 的隐式转换系统定义了一套良好的查找机制，当代码出现类型编译错误时，编译器试图去寻找一个隐式 implicit 的转换方法，转换出正确的类型，从而使得编译器能够自我修复，完成编译。在 Sca...

2019-07-10 17:18:51 391

原创【HBase】HBase 宽表和高表

本篇结构：宽表和高表定义宽表和高表的优劣宽表和高表的应用场景一、宽表和高表定义HBase 中的表可以设计为高表（tall-narrow table）和宽表（flat-wide table）：宽表是指很多列较少行，即列多行少的表，一行中的数据量较大，行数少；高表是指很多行较少列，即行多列少，一行中的数据量较少，行数大。二、宽表和高表的优劣HBase的键分为两种：列键...

2019-07-09 16:59:17 1814

原创【Jvm】垃圾回收

本篇结构：判断对象已死java 四种引用堆内存划分垃圾收集算法对象在堆中的分配垃圾收集器参考资料一、判断对象已死1.1、引用计数法给对象中添加一个引用计数器，每当有一个地方引用它，计数器就加1；当引用失效，计数器就减1；任何时候计数器为0的对象就是不可能再被使用的。这个方法实现简单，效率高，但是目前主流的虚拟机中并没有选择这个算法来管理内存，其最主要的原因是它很难解决对象...

2019-06-25 14:52:39 223

原创【Sqoop】Sqoop 工具之 Sqoop-import

全文内容来自：Sqoop工具模块之sqoop-import一、常用命令列举序号命令类说明1importImportTool将数据导入到集群2exportExportTool将集群数据导出3codegenCodeGenTool获取数据库中某张表数据生成Java并打包Jar4create-hive-tableCreateHiveTab...

2019-06-15 01:08:44 2761

原创【Sqoop】Sqoop 1.4.7 安装

一、Sqoop 介绍Sqoop 是一款用于 hadoop 和关系型数据库之间数据导入导出的工具。可以通过 Sqoop 把数据从数据库（比如 mysql,oracle）导入到 hdfs 中；也可以把数据从 hdfs 中导出到关系型数据库中。通过将 Sqoop 的操作命令转化为 Hadoop 的 MapReduce 作业（通常只涉及到 Map 任务）进行导入导出，即 Sqoop 生成的 Job ...

2019-06-14 15:12:55 580 1

原创【Jvm】运行时数据区域

内容来自《深入理解Java虚拟机》。本篇结构：程序计数器Java 虚拟机栈本地方法栈Java 堆（Java Heap）方法区运行时常量池直接内存一、程序计数器程序计数器（Program Counter Register）是一块较小的内存空间，它可以看作是当前线程所执行的字节码的行号指示器。在虚拟机的概念模型里，字节码解释器工作时就是通过改变这个计数器的值来选取下一条需...

2019-06-11 21:04:52 153

原创【HBase】HBase 安装

一、下载安装http://www.apache.org/dyn/closer.cgi/hbase从上述页面，挑选一个 Apache Download Mirror（Apache下载镜像），下载一个Hbase 的稳定发布版本，注意看是否适配 Hadoop 版本。解压：tar -zxv -f hbase-2.0.5-bin.tar.gz设置 Hbase 环境变量，并使其生效：# hbas...

2019-06-06 16:46:42 270

原创【Linux】Linux 文件与文件系统的压缩，打包与备份命令

来自《鸟哥的 Linux 私房菜》，重复只是加深自己的印象。一、Linux 系统常见的压缩指令列出几个常见的压缩文件扩展名：*.Z compress 程序压缩的文件；*.zip zip 程序压缩的文件；*.gz gzip 程序压缩的文件；*.bz2 bzip2 程序压缩的文件；*.xz xz 程序压缩的文件；*.tar tar 程序打包的数据，并没有压缩过；*.tar.gz ta...

2019-05-28 20:30:08 756

原创【Linux】Linux 磁盘与文件系统管理命令

来自《鸟哥的 Linux 私房菜》，重复只是加深自己的印象。本篇结构：文件系统的简单操作磁盘的分区、格式化、检验与挂载设置开机挂载内存交换空间（swap）之创建补充一、文件系统的简单操作1.1、磁盘与目录的容量磁盘的整体数据是在 superblock 区块中，但是每个各别文件的容量则在 inode当中记载的。在命令行下面该如何叫出这几个数据呢？df：列出文件系统的整体磁...

2019-05-14 20:01:28 734

SparkStreaming Kafka 代码

使用 Zookeeper 管理 Kafka offset，利用 SparkStreaming 进行流处理。完整代码示例。

2019-04-29

spark 并行加载 greenplum 数据

spark 并行加载 greenplum 数据，为正确运行，需引入 spark 相关包和 greenplum 驱动。  org.apache.spark spark-core_2.11 2.3.1  org.apache.spark spark-sql_2.11 2.3.1  com.pivotal greenplum-jdbc 5.1.4

2018-09-30

jcuda实现的dbscan

jcuda DBSCAN运行步骤： 1. 首先服务器需要有NVIDIA显卡，因为CUDA是NVIDIA专用； 2. 需要安装CUDA驱动程序和工具包，可从 [NVIDIA CUDA下载网站](http://developer.nvidia.com/cuda-toolkit-archive)获取; 3. 安装了CUDA驱动程序和工具包之后，就可以运行示例代码了： 4. 将lib包下的JCuda-All-0.8.0-bin-linux-x86_64.zip包解压，里面包含了jcuda程序依赖的jar包和动态链接库； 5. 将根据需求编写的内核代码getNeighbors.cu，通过"nvcc -ptx getNeighbors.cu -o getNeighbors.ptx"类似的命令将内核代码进行编译； 6. 然后javac -Djava.ext.dirs="JCuda-All-0.8.0-bin-linux-x86_64" CudaGdbscan.java和javac -Djava.ext.dirs="JCuda-All-0.8.0-bin-linux-x86_64" Test.java分别编译； 7. 最后运行java -Djava.ext.dirs="JCuda-All-0.8.0-bin-linux-x86_64" Test

2018-05-04

TA关注的人

SparkStreaming Kafka 代码

spark 并行加载 greenplum 数据

jcuda实现的dbscan

DBSCAN聚类算法java实现

js防止刷新倒计时代码

java web session被覆盖问题

SSH项目利用ajax无刷新添加评论的问题