
大数据
文章平均质量分 93
大数据分析、Nosql等文章专栏
Xd聊架构
优快云博客专家,Java领域优质创作者,曾任大厂架构师、技术总监,深耕Java、云原生、大数据、AI领域
展开
-
kafka3.6单机部署
部署Kafka之前,我们需要了解其背景和意义。Kafka是一个开源的分布式流处理平台,主要用于构建实时数据流管道和应用。它可以处理高速数据流,并支持发布和订阅模式。Kafka广泛应用于日志收集、流处理、消息队列等领域,具有高吞吐量、可扩展性、可靠性和容错性等优点。随着大数据和云计算技术的发展,数据量呈爆炸式增长,传统的数据处理方式已经无法满足需求。Kafka的出现为大数据处理带来了新的解决方案,它能够快速处理海量数据,提供实时的数据流服务。因此,部署Kafka对于企业来说具有重要的意义。原创 2024-01-31 16:37:09 · 901 阅读 · 0 评论 -
Doris数仓开发规范
2.没有办法分区的,数据又较快增长的,没办法按照时间动态分区,可以适当放大一下你的bucket数量,按照你的数据保存周期(180天)数据总量,来估算你的bucket数量应该是多少,建议还是单个bucket大小在1-3G。建议的方式是 1 FE(Follower) + 多个 OBserver(FE)方式,读写分析,所有的写连接 Follower,所有的读连接Observer。1.分桶字段注意事项:这个一般是数据分布比较均衡的,也是经常使用的字段,最好是高基数字段。原创 2024-01-03 15:02:59 · 1691 阅读 · 0 评论 -
flinkcdc踩坑指南
Flink CDC 常用两种方式进行数据的全量+增量一体的数据同步,数据清洗等功能。使用 DataStream API 进行任务的逻辑实现使用 Flink SQL 的方式进行任务的提交。原创 2023-10-12 09:23:33 · 1870 阅读 · 1 评论 -
flink1.17部署模式和部署方法
Apache Flink是一个框架和分布式处理引擎,用于对无边界和有边界的数据流进行有状态的计算。Flink被设计为可以在所有常见集群环境中运行,并能以内存速度和任意规模执行计算。目前市场上主流的流式计算框架有Apache Storm、Spark Streaming、Apache Flink等,但能够同时支持低延迟、高吞吐、Exactly-Once(收到的消息仅处理一次)的框架只有Apache Flink。原创 2023-10-10 15:29:28 · 2602 阅读 · 0 评论 -
Doris单机安装部署
Apache Doris 是一个基于 MPP 架构的高性能、实时的分析型数据库,以极速易用的特点被人们所熟知,仅需亚秒级响应时间即可返回海量数据下的查询结果,不仅可以支持高并发的点查询场景,也能支持高吞吐的复杂分析场景。基于此,Apache Doris 能够较好的满足报表分析、即席查询、统一数仓构建、数据湖联邦查询加速等使用场景,用户可以在此之上构建用户行为分析、AB 实验平台、日志检索分析、用户画像分析、订单分析等应用。原创 2023-07-12 16:16:00 · 4987 阅读 · 3 评论 -
Flink CDC详细教程(介绍、原理、代码样例)
CDC 是变更数据捕获(Change Data Capture)技术的缩写,它可以将源数据库(Source)的增量变动记录,同步到一个或多个数据目的(Sink)。在同步过程中,还可以对数据进行一定的处理,例如分组(GROUP BY)、多表的关联(JOIN)等。例如对于电商平台,用户的订单会实时写入到某个源数据库;A 部门需要将每分钟的实时数据简单聚合处理后保存到 Redis 中以供查询,B 部门需要将当天的数据暂存到 Elasticsearch 一份来做报表展示,C 部门也需要一份数据到 ClickHous原创 2022-06-24 16:48:16 · 23666 阅读 · 15 评论 -
Spark+Scala建设数仓和数据分析
数据分析系统架构文章目录数据分析系统架构一、系统架构图二、数仓各层介绍(ODS、DW、DM、共享库)三、Scala开发Spark代码样例四、常用命令参数五、踩坑记录1.解决本地运行spark on hive模式2.避免本地jar与服务器冲突3.HUE配置spark2的oozie工作流一、系统架构图二、数仓各层介绍(ODS、DW、DM、共享库)DB 是现有的数据来源,可以为mysql、SQLserver、文件日志等,为数据仓库提供数据来源的一般存在于现有的业务系统之中。ETL的是 Extr原创 2021-04-26 09:29:38 · 22289 阅读 · 27 评论 -
hadoop 文件通配符
public class FileWildCard { public static void main(String[] args) throws IOException { Configuration conf = new Configuration(); FileSystem fs = FileSystem. get(conf); String di原创 2015-03-26 14:04:07 · 18597 阅读 · 27 评论 -
hadoop hdfs基础操作
package hdfsDemo;import java.io.BufferedReader;import java.io.BufferedWriter;import java.io.InputStreamReader;import java.io.OutputStreamWriter;import org.apache.hadoop.conf.Configuratio原创 2015-03-23 22:11:07 · 16625 阅读 · 31 评论 -
hadoop 基本操作手册
####hdfs./bin/hdfs dfs -mkdir /user./bin/hdfs dfs -mkdir /user/Administrator./bin/hdfs dfs -chmod 777 /user/Administrator bin/hadoop dfs -put /home/logonuser/hadoop-2.6.0/aa.txt /lbda/bin/hadoop原创 2015-05-12 15:09:26 · 20642 阅读 · 26 评论 -
hadoop输入路径正则通配
在hadoop的编程中,如果你是手写MapReduce来处理一些数据,那么就避免不了输入输出参数路径的设定,hadoop里文件基类FileInputFormat提供了如下几种api来制定:(1)addInputPath(),每次添加一个输入路径Path(2)addInputPaths, 将多个路径以逗号分割的字符串,作为入参,支持多个路径 (3)setInputPath ,原创 2015-04-23 10:20:10 · 21671 阅读 · 24 评论