大数据
文章平均质量分 95
magicpenta
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Flink Watermark
Watermark 是什么在基于 event time 的实时计算中,我们常常会碰到 乱序数据 的场景。在理想情况下,我们以为我们的数据流会是这样的:但实际上受网络波动等影响,大多数情况下是这样的:在这种乱序的场景下,数据丢失是必然的。假设我们有一个大小为 [0, 5) 的窗口(单位为秒),当上述 event time 为 5 的元素输入时,该窗口会触发计算并关闭,导致后续流入的元素(2、3、4)找不到对应窗口而丢失。为了解决这种乱序数据带来的数据丢失问题,Flink 提供了 Watermar原创 2021-08-24 16:17:50 · 956 阅读 · 0 评论 -
Flink Window
众所周知,Flink 是流处理计算框架,专为流式数据而生。流式数据有一个特点,即无界性。在很多场景中,这种无界性会使很多计算指标失去了意义,如结果统计、大小排序等。Window(窗口)的出现,正是为了解决无界性的问题。它可以将无界数据按照某种规则划分成有界数据,并在之上完成业务计算。本文将重点介绍 Flink 的 Window API,以帮助读者了解 Flink Window 的概念及使用方式。???? 在 Flink 1.13 版本中,常用的 Window 基本都是基于时间的 TimeWindow原创 2021-08-24 16:07:03 · 386 阅读 · 0 评论 -
Flink DataStream API
Flink 根据抽象程度分层,提供了三种不同的 API。每一种 API 在简洁性和表达力上有着不同的侧重,并且针对不同的应用场景。DataStream API 是 Flink 中用于编写流处理作业的 API,为许多通用的流处理操作提供了处理原语。它支持 Java 和 Scala 语言,预先定义了例如 map()、reduce()、aggregate() 等函数。在 DataStream API 中,Flink 应用程序同样包含以下步骤:获取 execution environment定义数据原创 2021-08-10 10:49:32 · 850 阅读 · 0 评论 -
Flink 快速入门
什么是 FlinkApache Flink 是一个分布式计算框架,它能够对有界和无界的数据流进行高效的处理。有界数据:即批数据(离线数据),具有已定义的起止位置,属于静态数据集无界数据:即流式数据(实时数据),无已定义的结束位置,属于动态数据集Flink 特点在官方的介绍中,Flink 具有以下优势:Deploy Applications Anywhere:Flink 集成了所有常见的集群资源管理器,例如 Hadoop YARN、Apache Mesos 和 Kubernetes,也可以原创 2021-07-14 13:50:24 · 799 阅读 · 1 评论 -
Zstd 压缩性能分析
About ZstdZstd,全称 Zstandard,是 Facebook 于 2016 年开源的新无损压缩算法。与 zlib、lz4、xz 等当前流行的压缩算法不同,Zstd 寻求一种压缩性能与压缩率通吃的方案,而实际上它也确实做到了。在由官方所列出的表格中,可以看到,Zstd 不仅具备优秀的压缩性能,在压缩率上也有非常亮眼的表现。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RXOO1Z8l-1596090419061)(https://engineering.fb原创 2020-07-30 14:29:14 · 10892 阅读 · 0 评论 -
基于 Docker 部署 Flume 应用
前言本文目的在于通过 flume、zookeeper、kafka、docker 搭建基本的日志采集系统,实现日志的采集并将数据发送至 Kafka。搭建前,需确保已安装以下组件:JDK 8FlumeZookeeperKafkaDocker同时需确保已掌握以下技能:能在本地部署并成功启动 Flume,且了解 Flume 的核心概念 source、channel、sink能基本使用 Zookeeper,了解节点的创建、更新、查看与删除能基本使用 Kafka,了解 topic 的概念,实原创 2020-06-17 20:35:41 · 4798 阅读 · 0 评论 -
Clickhouse 入门教程(一)—— 安装与启动
文章目录一、Clickhouse 简介二、Clickhouse 安装2.1 系统要求2.2 安装方式2.2.1 rpm 包下载2.2.2 rpm 包安装三、Clickhouse 启动与验证一、Clickhouse 简介Clickhouse 是一个开源的面向联机分析处理(OLAP, On-Line Analytical Processing)的列式存储数据库管理系统。Clickhouse 的优...原创 2019-04-10 20:29:25 · 23844 阅读 · 1 评论 -
Clickhouse 入门教程(二)—— Java 连接示例
文章目录一、JDBC 驱动二、代码示例2.1 create table2.2 batch insert2.3 select query2.4 drop table三、解决 Connection refuse 的问题一、JDBC 驱动clickhouse 有两种 JDBC 驱动实现。官方驱动:<dependency> <groupId>ru.yandex.cl...原创 2019-04-25 14:30:57 · 33169 阅读 · 4 评论 -
Cloudera 离线安装指南
一、版本号system:CentOS 6Cloudera Manager:5.7.0CDH:5.7.0二、环境准备MySQL 5.6Java 8python 2.6三、安装步骤1. 进行集群角色划分,指定 server 与 agent在 Cloudera Manager 中,包含两种角色,server 与 agent,两者间关系如下:server 负责管理集群内主机...原创 2019-07-12 13:52:38 · 375 阅读 · 0 评论
分享