- 博客(7)
- 收藏
- 关注
原创 MySQL 创建指定开始日期的日期维度临时表
使用场景:1.生产上对数据库(其他业务系统的库)只有只读权限,不能创建表;2.业务逻辑转化的SQL如下:按日期计算表数据量,需要统计多个表的数据量作为多个字段展示到结果表result中,各表的关联条件为日期,如下所示:-- 1)查询sqlselect t1.t_date, t1.a as c1, -- 表1数据量作为指标1 t2.b as c2, -- 表2数据量作为指标2 t3.c as c3 -- 表3数据量作为指标3from ( select t_date, count(
2021-03-27 00:17:57
1520
1
原创 Kubernetes(K8S) 3台服务器安装与测试
Kubernetes v1.15.0 安装............................................................................................. 2一、Kuvernetes简介....................................................................
2020-03-30 23:35:19
3788
原创 数据采集模块——Flume消费Kafka数据写入到HDFS
一、项目背景1. 实时数据写入到 Kafka topic 中,经 Flume 批量采集到 HDFS 上。此处的实时数据格式为标准 JSON 格式(不包含嵌套 JSON)。2. 测试环境模拟数据的采集过程。测试集群为 第三方公司 基于当前主流开源组件自主研发并搭建的大数据平台,包含常用组件:HDFS,MapReduce,Yarn,Hive ,HBase ,Phoenix,Zookeeper,...
2020-03-27 11:54:17
3511
1
转载 Hive常用字符串函数
转载自 过往记忆(https://www.iteblog.com/)本文链接:【Hive常用字符串函数】(https://www.iteblog.com/archives/1639.html)Hive内部提供了很多操作字符串的相关函数,本文将对其中部分常用的函数进行介绍。下表为Hive内置的字符串函数,具体的用法可以参见本文的下半部分。返回类型 函数名 描述...
2019-09-23 18:26:00
719
原创 Spark SQL 与 Hive 的区别简介【学习笔记】
一、什么是Spark SQL? (官方定义)Spark SQL* A Spark module for structured data processing(known set of fields for each record - schema) ;1. Spark SQL是Spark中专门用来处理结构化数据(每一行数据都遵循Schema信息 —— 建表时表的字段及其 ...
2019-06-16 17:06:07
18009
3
原创 什么是 RDD?【学习笔记】
一、什么是 RDD(从源码解读)1、A Resilient Distributed Dataset (RDD), the basic abstraction in Spark.RDD 弹性分布式数据集,是 Spark 中的最基本抽象。✓ Resilient ==> 指的是RDD的分区(代表着RDD数据分为几份)数量是可以进行弹性控制的;✓ Distributed ==>...
2019-06-15 23:13:47
562
原创 Flume与Kafka区别与联系【学习笔记】
区别:Flume (Apache 日志收集系统),主要功能就是收集同步数据源的数据,并将数据保存到持久化系统中,适合数据来源比较广,数据收集结构比较固定的场景; Kafka (Apache 分布式消息系统),主要是作为一个中间件系统的方式存在,适合高吞吐量和负载的情况,可以作为业务系统中的缓存、消息通知系统、数据收集等场景。为什么还需要Flume作为日志收集系统?主要原因:Kafka ...
2019-06-15 22:23:52
1585
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人