Diego_zh-优快云博客

原创 MySQL 创建指定开始日期的日期维度临时表

使用场景：1.生产上对数据库（其他业务系统的库）只有只读权限，不能创建表；2.业务逻辑转化的SQL如下：按日期计算表数据量，需要统计多个表的数据量作为多个字段展示到结果表result中，各表的关联条件为日期，如下所示：-- 1）查询sqlselect t1.t_date, t1.a as c1, -- 表1数据量作为指标1 t2.b as c2, -- 表2数据量作为指标2 t3.c as c3 -- 表3数据量作为指标3from ( select t_date, count(

2021-03-27 00:17:57 1612 1

原创 Kubernetes（K8S） 3台服务器安装与测试

Kubernetes v1.15.0 安装............................................................................................. 2一、Kuvernetes简介....................................................................

2020-03-30 23:35:19 3931

原创数据采集模块——Flume消费Kafka数据写入到HDFS

一、项目背景1. 实时数据写入到 Kafka topic 中，经 Flume 批量采集到 HDFS 上。此处的实时数据格式为标准 JSON 格式（不包含嵌套 JSON）。2. 测试环境模拟数据的采集过程。测试集群为第三方公司基于当前主流开源组件自主研发并搭建的大数据平台，包含常用组件：HDFS,MapReduce,Yarn,Hive ,HBase ,Phoenix,Zookeeper,...

2020-03-27 11:54:17 3620 1

转载 Hive常用字符串函数

转载自过往记忆（https://www.iteblog.com/）本文链接:【Hive常用字符串函数】（https://www.iteblog.com/archives/1639.html）Hive内部提供了很多操作字符串的相关函数，本文将对其中部分常用的函数进行介绍。下表为Hive内置的字符串函数，具体的用法可以参见本文的下半部分。返回类型函数名描述...

2019-09-23 18:26:00 800

原创 Spark SQL 与 Hive 的区别简介【学习笔记】

一、什么是Spark SQL？（官方定义）Spark SQL* A Spark module for structured data processing(known set of fields for each record - schema) ;1. Spark SQL是Spark中专门用来处理结构化数据（每一行数据都遵循Schema信息 —— 建表时表的字段及其 ...

2019-06-16 17:06:07 18266 3

原创什么是 RDD？【学习笔记】

一、什么是 RDD（从源码解读）1、A Resilient Distributed Dataset (RDD), the basic abstraction in Spark.RDD 弹性分布式数据集，是 Spark 中的最基本抽象。✓ Resilient ==> 指的是RDD的分区（代表着RDD数据分为几份）数量是可以进行弹性控制的；✓ Distributed ==&gt...

2019-06-15 23:13:47 620

原创 Flume与Kafka区别与联系【学习笔记】

区别:Flume (Apache 日志收集系统)，主要功能就是收集同步数据源的数据，并将数据保存到持久化系统中，适合数据来源比较广，数据收集结构比较固定的场景； Kafka (Apache 分布式消息系统)，主要是作为一个中间件系统的方式存在，适合高吞吐量和负载的情况，可以作为业务系统中的缓存、消息通知系统、数据收集等场景。为什么还需要Flume作为日志收集系统？主要原因：Kafka ...

2019-06-15 22:23:52 1641

weixin_44196083的博客