海鸥~-优快云博客

原创大数据面试题之葵花宝典------Flink高级

葵花宝典------Flink中级1、Flink是如何支持批流一体的？2、Flink是如何做到高效的数据交换的？3、Flink是如何做容错的？4、Flink 分布式快照的原理是什么？5、Flink是如何保证Exactly-once语义的？6、Flink 的 kafka 连接器有什么特别的地方？7、说说 Flink的内存管理是如何做的?8、说说 Flink的序列化如何做的?9、Flink中的Window出现了数据倾斜，你有什么解决办法？10、Flink中在使用聚合函数 GroupBy、Distinct、Key

2020-09-09 10:23:34 2110 1

原创大数据面试题之葵花宝典------Flink中级

2020-09-08 17:30:45 2231

原创大数据面试题之葵花宝典------Flink初级

这里写目录标题1、简单介绍一下 Flink2、Flink相比传统的Spark Streaming区别?3、Flink的组件栈有哪些？4、Flink 的运行必须依赖 Hadoop组件吗？5、你们的Flink集群规模多大？6、Flink的基础编程模型了解吗？7、Flink集群有哪些角色？各自有什么作用？8、说说 Flink 资源管理中 Task Slot 的概念9、说说 Flink 的常用算子？10、说说你知道的Flink分区策略？11、Flink的并行度了解吗？Flink的并行度设置是怎样的？12、Flink

2020-09-07 21:36:32 3017

原创大数据面试题之葵花宝典------flume

葵花宝典------flume1. Flume组成，Put事务，Take事务2. Flume拦截器3. Flume Channel选择器4. Flume监控器5. Flume采集数据会丢失吗?（防止数据丢失的机制）6. Flume内存7. FileChannel优化1. Flume组成，Put事务，Take事务1、Taildir Source：断点续传、多目录。Flume1.6以前需要自己自定义Source记录每次读取文件位置，实现断点续传。2、File Channel：数据存储在磁盘，宕机数据可以

2020-09-06 21:25:39 4030

原创大数据面试题之葵花宝典------Hadoop

葵花宝典------Hadoop1. hdfs读写流程2. hdfs的体系结构3. 一个datanode 宕机,怎么一个流程恢复4. hadoop 的 namenode 宕机,怎么解决5. namenode对元数据的管理6. 元数据的checkpoint7. yarn资源调度流程8. hadoop中combiner和partition的作用9. 用mapreduce怎么处理数据倾斜问题？10. shuffle 阶段,你怎么理解的11. Mapreduce 的 map 数量和 reduce 数量是由什么决定

2020-09-06 01:09:32 7796 8

原创 Datax系列(一) MysqlReader → 控制台

从mysql读取数据打印控制台DataX 是阿里巴巴集团内被广泛使用的异构数据源离线同步工具，致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、MaxCompute(原ODPS)、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。DataX本身作为离线数据同步框架，采用Framework + plugin架构构建。将数据源读取和写入抽象成为Reader/Writer插件，纳入到整个同步框架中。目前已经有了比较全面的插件体系，主流的RDBMS数据库、NOSQL、

2020-10-24 15:37:53 977

原创 Datax系列(二) MysqlReader → MysqlWriter

从mysql数据库读取数据同步到另一个数据库DataX 是阿里巴巴集团内被广泛使用的异构数据源离线同步工具，致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、MaxCompute(原ODPS)、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。DataX本身作为离线数据同步框架，采用Framework + plugin架构构建。将数据源读取和写入抽象成为Reader/Writer插件，纳入到整个同步框架中。目前已经有了比较全面的插件体系，主流的RDBMS数据库

2020-10-24 15:35:42 1141

原创【Regal大数据】Flink1.11编译Hadoop2.7.2 编译flink-shaded-hadoop-2-uber jar包依赖

从Flink 1.11开始，flink-shaded-hadoop-2-uberFlink项目不再正式支持使用发行版。如果想建立flink-shaded对供应商特定的Hadoop版本，您必须首先描述配置特定供应商的Maven仓库在本地Maven安装在这里。运行以下命令以flink-shaded针对所需的Hadoop版本（例如对于version 2.6.5-custom）进行构建和安装：mvn clean install -Dhadoop.version=2.6.5-custom完成此步骤后，将f

2020-09-03 09:38:45 8866 3

原创 Linux下安装maven环境，并测试使用

使用Linux的root用户安装Maven1. 下载安装包 tar.gz官网：http://maven.apache.org/download.cgi2. 修改settings.xmlvi settings.xml修改自己的仓库地址修改自己想用的镜像，我这是阿里云<mirrors><mirror> <id>alimaven</id> <mirrorOf>central</mirrorOf&g

2020-09-03 09:24:04 3231

原创 Call From xx/x.x.x.x .hdp1:9000:java.net.ConnectException:拒绝连接For m...see:http://wiki.apac..Refused

问题：mkdir: Call From hdp1/192.x.x.143 to hdp1:9000 fail...tion exception: java.net.ConnectException: 拒绝连接; For m...see: http://wiki.apac....ConnectionRefused原因：在hadoop的配置文件core-site.xml时候必须写自己的ip地址解决：...

2020-09-02 17:28:23 4901

原创 idea快捷键大全(常用的都有)

全部快捷键大全链接idea快捷键一（Ctrl+）idea快捷键二（Alt+）idea快捷键三（Shift+）idea快捷键四（Ctrl + Alt+Shift）以下的是个别快捷键，详细的点击上方链接查找。快捷键详情说明Alt + Insert代码自动生成，如生成对象的 set / get 方法，构造函数，toString() 等Ctrl + +展开代码Ctrl + -折叠代码Ctrl + J插入自定义动态代码模板Ctrl + P方法参数提示显

2020-08-30 23:50:10 4616

原创 Docker系列(六) docker环境下安装flume 实现logs+flume+kafka日志采集镜像安装

以下均为生产环境下亲测使用如有出入请私信梁工一、安装flume1、docker中查看镜像docker search flume2、pull 新版稳定 flume2.0.0docker pull probablyfine/flume:2.0.03、创建一个flume文件夹里面包含 conf logsconf : 文件夹下放我们写的配置文件 sources channel sinklogs : 对容器内的logs在本地做映射以下为从log.

2020-08-02 16:20:08 7168 2

原创 Docker系列(五) docker 常用操作命令

通过docker save命令将镜像保存为文件docker save -o nacos.tar docker.io/nacos:1.0.0导入镜像docker load --input es.tar

2020-07-30 15:25:20 4590

原创 LDAP是什么 ? 看看他的原理介绍吧

一、什么是LDAP？（一）在介绍什么是LDAP之前，我们先来复习一个东西：“什么是目录服务？”1. 目录服务是一个特殊的数据库，用来保存描述性的、基于属性的详细信息，支持过滤功能。2. 是动态的，灵活的，易扩展的。如：人员组织管理，电话簿，地址簿。（二）了解完目录服务后，我们再来看看LDAP的介绍：LDAP（Light Directory Access Portocol），它是基于X.500标准的轻量级目录访问协议。目录是一个为查询、浏览和搜索而优化的数据库，它成树状结构组织数据，类似文件目录

2020-07-27 19:14:11 5417

原创 SQL表达式

一、字符串函数1. 从左开始截取字符串：left(str,n)例：select left(‘开发技能’,2)结果为：‘开发’2. 从右开始截取字符串：right(str,n)例：select right(‘开发技能’,2)结果为：‘技能’3. substring按指定位置截取字符串：substring(str,pos)——substring(被截取字段，从第几位开始截取）substring(str,pos,length)——substring(被截取字段，从第几位开始截取，

2020-07-23 12:11:52 6133

原创未来大数据发展趋势

专家对大数据发展趋势的一些预测是值得企业关注的。很多人都认为大数据是一种流行技术，并将会继续存在。对于一些人来说，有些事情并不那么明确，这关系到大数据分析的未来发展趋势。很多新兴技术正在迅速发展。对于现在或即将使用它们的企业意味着什么?那么什么是大数据?它包含了由一个实体保存的结构化和非结构化信息，这些信息对于传统的系统和技术而言规模太大了，它还与处理能力的速度有关。一些企业需要几乎实时的洞察力，大数据软件可以提供这些洞察力，而传统方法则不能。如果人们听取专家的建议，那么了解大数据技术和用例的未来将变

2020-07-21 18:59:31 5635

原创 ODM OEM OBM 指的是什么他的理解

OBM：A设计，A生产，A品牌，A销售==工厂自己设计自产自销ODM：B设计，B生产，A品牌，A销售==俗称“贴牌”，就是工厂的产品，别人的品牌OEM：A设计，B生产，A品牌，A销售==代工，代生产，别人的技术和品牌，工厂只生产...

2020-07-21 12:08:39 6638

原创 Docker系列(四) Docker中kafka各镜像的对比 ----zookeeper kafka镜像安装及容器启动

zookeeper安装及启动docker pull wurstmeister/zookeeperversion: '3'services: zk: image: zookeeper# 镜像名称 restart: always # 当发生错误时自动重启 hostname: junwei container_name: zookeeper privileged: true ports: # 端口 - 2181:2181 volumes: # 挂载数据卷 - .

2020-07-19 18:20:37 6415

原创一站式Kafka平台解决方案——KafkaCenter

实时流式计算KafkaCenter是什么KafkaCenter是一个针对Kafka的一站式，解决方案。用于Kafka集群的维护与管理，生产者和消费者的监控，以及Kafka部分生态组件的使用。对于Kafka的平台化，一直缺少一个成熟的解决方案，之前比较流行的kafka监控方案，如kafka-manager提供了集群管理与topic管理等等功能。但是对于生产者、消费者的监控，以及Kafka的新生态，如Connect，KSQL还缺少响应的支持。Confluent Control Center功能要完整一.

2020-07-17 09:04:49 4877

原创 Docker系列(二) Docker容器（centos7）中rpm离线方式安装mysql镜像

以mysql 5.6为例进行操作首先，下载mysql的rpm文件，主要包含3个rpm包：MySQL-client-5.6.41-1.el7.x86_64.rpmMySQL-devel-5.6.41-1.el7.x86_64.rpmMySQL-server-5.6.41-1.el7.x86_64.rpm3个rpm包的地址https://download.youkuaiyun.com/download/Charlie_jun/12587145https://download.youkuaiyun.com/down.

2020-07-08 09:49:30 5059

原创 Docker系列(三) Docker run 参数详情

docker run 的参数详情$ sudo docker runUsage: docker run [OPTIONS] IMAGE [COMMAND] [ARG…]Run a command in a new container一、参数-a, --attach=[] Attach to stdin, stdout or stderr.-c, --cpu-shares=0 CPU shares (relative weight) -----.

2020-07-08 09:42:52 6080

原创数据湖和数据仓库的区别看不懂你淦我？

我们都知道，进行数据分析工作的时候会用到很多的工具，比如说数据湖和数据仓库，不过这两者之间的差异和区别，可能会让人困惑。那么大家知道不知道数据湖和数据仓库的区别是什么呢？下面我们就给大家介绍一下数据湖和数据库的相关知识。什么是数据湖呢？其实数据湖就是一个集中存储数据库，用于存储所有结构化和非结构化数据。数据湖可用其原生格式存储任何类型的数据，这是没有大小限制。数据湖的开发主要是为了处理大数据量，擅长处理非结构化数据。我们通常会将所有数据移动到数据湖中不进行转换。数据湖中的每个数据元素都会分配一个唯.

2020-07-03 16:04:35 4746

原创 Docker系列(一)Docker容器说明及安装步骤

天道酬勤勤能补拙一、简介Docker包括三个基本概念：1). 镜像（image）:Docker镜像（Image），就相当于是一个root文件系统。比如官方镜像ubuntu:16.04就包含了完整的一套Ubuntu16.04最小系统的root文件系统。2). 容器（Container）:镜像（Image）和容器（Container）的关系，就像是面向对象程序设计中的类和实例一样，镜像是静态的定义，容器是镜像运行时的实体。容器可以被创建、启动、停止、删除、暂停等。3). 仓库（Reposi.

2020-07-01 17:06:03 668 1

原创 bigData数据质量监控（Griffin）建设方法监控指标

一、为什么要做数据质量监控1)数据不一致企业早期没有进行统一规划设计，大部分信息系统是逐步迭代建设的，系统建设时间长短各异，各系统数据标准也不同。企业业务系统更关注业务层面，各个业务系统均有不同的侧重点，各类数据的属性信息设置和要求不统一。另外，由于各系统的相互独立使用，无法及时同步更新相关信息等各种原因造成各系统间的数据不一致，严重影响了各系统间的数据交互和统一识别，基础数据难以共享利用，数据的深层价值也难以体现。2)数据不完整由于企业信息系统的孤立使用，各个业务系统或模块按照各自的需要录入数据，

2020-06-24 15:52:19 6198

原创 zookeeper是怎样实现数据一致性的？

众所周知，zookeeper是一个开源的分布式协调服务，很多分布式的应用都是基于zookeeper来实现分布式锁，服务管理，服务发现，通知订阅等功能。那么。zookeeper自身是如何在分布式环境下实现数据的一致性的呢。一、结构既然zookeeper是在分布式环境下提供服务的，那么它必须要解决的问题就是单点问题，因此zookeeper是一个主备的结构。zookeeper 存在leader,follower,observer三种角色,这三种角色在实际服务集群中都是服务节点。leader:处理所有请求，

2020-06-23 11:20:33 4713

原创用sqoop从Mysql多表/单表导入hdfs命令

一、 sqoop命令从Mysql单表导入hdfs命令bin/sqoop import \--connect jdbc:mysql://10.160.000.117:3306/phjr_data \--m 1 \--username mysql \--password minmin@123 \--table t_fgw_qt_lhszzxx \--target-dir /smxaq/PHJR/phjr_data/t_fgw_qt_lhszzxx \--as-textfile \--fiel

2020-06-22 18:19:00 5175

原创全量、增量数据抽取同步

数据抽取是什么数据抽取是指从源数据源系统抽取目的数据源系统需要的数据。实际应用中，数据源较多采用的是关系数据库。数据抽取的方式一、全量抽取增量抽取只抽取自上次抽取以来数据库中要抽取的表中新增或修改的数据。在ETL 使用过程中，增量抽取较全量抽取应用更广。如何捕获变化的数据是增量抽取的关键。对捕获方法一般有两点要求：准确性，能够将业务系统中的变化数据按一定的频率准确地捕获到；性能，不能对业务系统造成太大的压力，影响现有业务。目前增量数据抽取中常用的捕获变化数据的方法有：(a) 触发器方式（又称快照式

2020-06-19 11:03:45 6531 1

TA关注的人

海鸥~