- 博客(19)
- 资源 (3)
- 收藏
- 关注
原创 Flinkx测试经验分享
1. 什么是FlinkXFlinkX是在是袋鼠云内部广泛使用的基于flink的分布式离线数据同步框架,实现了多种异构数据源之间高效的数据迁移。不同的数据源头被抽象成不同的Reader插件,不同的数据目标被抽象成不同的Writer插件。理论上,FlinkX框架可以支持任意数据源类型的数据同步工作。作为一套生态系统,每接入一套新数据源该新加入的数据源即可实现和现有的数据源互通。2. 测试使用由于对Flinkx的好奇,空出时间学习和使用Flinkx在最近的半个月内的测试过程中,已经测同oracle,my
2021-06-05 16:18:18
400
原创 Flinkx如何通过json文件定位读写插件
前言Flinkx作为数据同步工具,它通过json配置文件来确定多源到多源的数据同步和同步策略,这次就来看看Flinkx是如何通过json配置文件来定位reader和writer端的整体结构从Flinkx项目里可以看到,它对每个数据源都定义了core,reader输出端,writer输入端。当然也有意外,hive和redis只要输入。Flinkx是如何通过json配置文件定位这个源呢看源码定位到D:\Projects\flinkx-1.8.5\flinkx-core\src\main\java\
2021-06-05 15:51:01
336
原创 Flinkx启动流程-整体理解
1. 先看启动脚本在bin/flinkx的内容set -eexport FLINKX_HOME="$(cd "`dirname "$0"`"/..; pwd)"# Find the java binaryif [ -n "${JAVA_HOME}" ]; then JAVA_RUN="${JAVA_HOME}/bin/java"else if [ `command -v java` ]; then JAVA_RUN="java" else echo "JAVA_HOM
2021-06-05 15:27:58
340
原创 Mysql同步到Hive实例
Mysql同步到Hive实例以下实例均为本地模式下运行完成,主要是针对Mysql数据同步到Hive的实例说明。将介绍mysqlreader和hivewrite的所有参数配置的使用。mysqlwrite参数说明:https://github.com/DTStack/flinkx/blob/1.10_release/docs/offline/reader/mysqlreader.mdhiveread参数说明:https://github.com/DTStack/flinkx/blob/1.10_relea
2021-05-27 18:42:17
900
原创 Flinkx Mysql同步数据到Hive 实例
提前安装好hadoop,Hive和mysql。1. 开启hadoop和hive[root@slave13 conf]# start-all.sh[root@slave13 conf]# hive[root@slave13 conf]# hiveserver2#启动后的进程[root@slave13 conf]# xcall jps=========slave11==================72576 NameNode72946 ResourceManager72155
2021-05-26 08:09:31
1680
1
原创 flinkX快速启动
在flinkx启动之前,请提前安装git,maven,mysql(已同步mysql为例)。 windows安装提前安装好jdk和maven下载代码1.使用git工具把项目clone到本地,或者直接下载flinkx-1.8.5.zipgit clone https://github.com/DTStack/flinkx.git cd flinkx2.直接下载源码wget https://github.com/DTStack/flinkx/archive/1.8.5.zip unzip
2021-05-26 07:54:12
298
原创 centos7 下载安装 oracle11 最新必成功
前言本教程自己经过5遍的实践检验,每一遍都会有各种报错,但是多安装几遍,多百度找找原因,应该不是什么问题。最后一遍安装时间花费1个小时没有虚拟机,centos7镜像和oracle11安装包的,我已经给大家提供好了,不用谢链接:https://pan.baidu.com/s/1zRcf959F3X2mJ5lfmZUY_A 提取码:uh0z环境准备1.CentOS7 / CentOS8 64位最小化安装的虚拟机环境,需要图像化桌面准备图形化桌面 安装oracle之前,Centos需要安装桌
2021-05-23 20:54:39
953
原创 《Hive权威指南》读薄
第三章 数据类型和文件格式Hive基本数据类型:tinyint,smalint,int,bigint,boolean,float,double,string,timestamp,binary;hive并不限制列值的长度;float和double比较会将float隐式转换为double在进行对比,有必要是会将任意整型类型转化为double类型;把字符串类型转换为数值用cast(s as int)Hive集合数据类型:struct,map,array。Struct可以混合多种不同的数据类型;H...
2021-05-15 20:07:17
475
原创 Spark分区原理和分区后数据的划分
Spark分区原理和数据的分布将从内存数据和文件数据两个方向,讲述下数据如何分区,分区后的数据如何分配的问题本实例使用本地模式实践解析1. 集合数据的分区和数据分布val sparkConf = new SparkConf().setMaster("local[*]").setAppName("parallelism")//sparkConf.set("spark.default.parallelism","5")val sc = new SparkContext(sparkConf)val
2021-02-07 12:18:50
1128
原创 Spark RDD的创建
Spark RDD的创建版本信息:Spark2.12,scala2.12.11Spark创建RDD有三种方式1. 从集合(内存)中创建RDD从集合中创建RDD,Spark提供了两种方式:parallelize和makeRDDval sparkConf = new SparkConf().setMaster("local[*]").setAppName("RDD Create")val sc = new SparkContext(sparkConf)val rdd1: RDD[Int] = s
2021-02-05 22:15:19
211
原创 Hive面试题汇总(2021)
Hive面试汇总1. 简述Hive主要架构Hive元数据默认存储在derby数据库,不支持多客户端访问,所以需要将元数据存储在MySQL中,才支持多客户端访问。主要架构如下: Hive解析成MR的过程:Hive通过给用户提供一系列交互接口,接收到用户的指令(sql语句),结合元数据(metastore),经过Driver内的解析器,编译器,优化器,执行器转换成mapreduce(将sql转换成抽象语法树AST的解析器,将AST编译成逻辑执行计划的编译器,在对逻辑执行计划进行...
2021-01-25 16:40:57
21453
2
原创 HBase参数调优
HBase参数调优故障现象 当写入的数据总量超过一定数量(如1TB以上)时,系统整体访问服务将大受影响,吞吐量及响应时间变得不稳定原因分析 对表预建了20个Region,随着数据量膨胀分裂到160个,由于写入方式是完全随机写入各个Region中,因为Region数量过多,大量时间浪费在等待Region释放资源,获取Region连接以及释放连接等方面解决方案 修改HBase的配置原理 如果任何一个column family里的StoreFile超过这个阀值,那么这个Region会一分为
2021-01-12 22:18:03
212
原创 HBase整体介绍
HBase整体介绍HBase是Hadoop的数据库,一个高可靠性,高性能,实时读写的分布式列数据库。主要技术特点: 1. 大表:一个表可以有上亿行,上百列,提供海量数据存储能力 2. 列式存储:面向列族的存储和权限控制,列族独立检索 3. 稀疏多维表:表数据通过rowKey,columnName,timeStamp进行索引和查询定位,使用timeStamp允许数据有多个版本 4. NoSQL经典数据库:简单的数据模型,可存储非结构化和半结构化的数据,不存在复杂的表之间的关系,不支持事务HBas
2021-01-12 19:00:51
302
原创 Flume2Kafka2HBase功能
Flume2Kafka2HBase功能块 最近学习尚硅谷电信客服项目-大数据项目,将以前学习的Hadoop,HBase,Flume,Kafka使用起来,一方面是学习各技术之间的项目使用,二方面是通过写博客,加强学习印象,查漏补缺。电信客服项目有数据模拟生成,数据消费,数据分析,数据展示这四个模块,我将数据消费模块剥离出来,按照项目重新敲了3遍,将关键的代码全部整合在一起,独立成一个项目。前言 数据消费模块是将通过Flume采集文件数据,Kafka消费,写入HBase的过程,跑通该模块需要搭建启
2021-01-11 12:14:27
305
原创 学习大数据的方向
学习大数据的方向 大数据领域的框架这么多,Hadoop,Spark,Flink等等,其实我们只要学明白其中一个,上手同类的其他技术就不难了,举一反三很重要。还有尽量学习主流经典的框架,比如hadoop太经典了,流处理的Flink特别火。 怎么去学习一个技术呢,这个学习思路也清晰 第一步:搞清楚这个技术是干什么,解决了什么问题,同类的技术有哪些。 第二步:把技术用起来。先把运行环境部署好,基于搭好的环境做实验,跑Demo,从简单到复杂。 第三步:做学...
2021-01-08 14:49:46
151
原创 POI HSSF SXSSF 百万写入
在实际项目开发中,有时需要多次下载excel报表,以此专门开发写入excel的工具类这工具采用POI的HSSF和SXSSF两种API进行下载,可实现几万条(HSSF)和百万条(SXSSF)的写入,当数据大小超过23000条(可改)时自动切换API进行写入。 使用Collection容器装载需要写入的数据,这您就需要专门写bean来保存对象值。当然还有其他方式,比如使用json来保存写入数据,...
2019-02-28 16:50:08
632
转载 html引入公共的头部,导航栏,尾部
很不错的文章,讲解html引入公共的头部,导航栏,尾部的很仔细^_^一、asp语言和PHP语言首先制作一个头部文件head.asp,或者一个底部文件foot.asp。如主页是index.asp,调用头部代码是在index.asp文件代码的开始位置(第一个标记后面,<head>标记前面)增加如下代码:<!– #include file=”head.asp” –> 调用...
2018-03-23 11:04:39
44771
转载 html5 表格标签 table tr td
最重要的三个<table> 表格声明标签属性:boarder 边框粗细style 可配合css 使用<tr> 行标签 table row 有表就可以建行 ___<td> 单元格标签 table data 有行就可以建数据 |属性:colspan data占用格子, 或者可以理解为这个单元格要合并多少个横向的单元格. ...
2018-03-20 09:53:48
9254
转载 span赋值和取值
1、<span id="span_id">span的文本</span>的取值。 js取<span>的值并不是用document.getElementById('span_noticesg').value,而是document.getElementById('span_id').innerText。jquery取<span>的值,是$("#span_n...
2018-03-15 15:22:17
2062
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人