
数仓从入门到熟练
文章平均质量分 93
顽石九变
人生没有彩排,每一天都是现场直播,所以每一刻都要活得精彩。
展开
-
【数仓】数仓建模理论及步骤,ER建模,维度建模,星形模型,雪花模型,数据分层
数据仓库是一个面向主题、集成的、非易失的且随时间变化的数据集合。它主要用于组织、积累历史数据,并使用分析方法(如OLAP、数据分析)进行分析整理,以辅助决策,为管理者、企业系统提供数据支持、构建商业智能。数据仓库的特点包括面向主题性、集成性、非易失性和时变性。数仓建模的目标是在性能、成本、效率和数据质量之间找到最佳平衡点原创 2024-04-18 16:25:01 · 4216 阅读 · 1 评论 -
【数仓】DataX 通过SpringBoot项目自动生成 job.json 文件
DataX的任务脚本job.json格式基本类似,而且我们在实际同步过程中通常都是一个表对应一个job,那么如果需要同步的表非常多的话,需要编写的job.json文件也非常多。既然是类似文件结构,那么我们就有办法通过程序自动生成相关的job.json文件。原创 2024-04-10 10:22:59 · 1717 阅读 · 0 评论 -
【数仓】DataX软件安装及配置,从mysql同步到hdfs
DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。原创 2024-03-26 19:39:38 · 1687 阅读 · 0 评论 -
【数仓】通过Flume+kafka采集日志数据存储到Hadoop
通过将数据从不同的数据源采集并传输到指定的目的地,Flume可以帮助企业实现数据的集中存储和管理,为后续的数据分析和挖掘提供基础。它主要用于将大量的日志数据从不同的数据源收集起来,然后通过通道(Channel)进行传输,最终将数据传输到指定的目的地,如HDFS、HBase等。上表中的参数是最常用的,但并不是所有的参数都在所有版本的Flume中都可用。原创 2024-03-09 23:16:05 · 2774 阅读 · 11 评论 -
【数仓】Maxwell软件安装及配置,采集mysql数据
Maxwell是一个读取MySQL binlogs(二进制日志)的应用程序,它的主要作用是将MySQL中的变更数据(包括insert、update、delete等操作)实时捕获,并将这些变更数据以JSON格式发送到Kafka、Kinesis、RabbitMQ等流数据处理平台。总的来说,在数仓中,Maxwell的作用主要是实时捕获MySQL中的变更数据,并将这些数据以流的形式发送到下游处理平台,从而实现数据的实时同步和处理。原创 2024-03-08 19:30:42 · 2522 阅读 · 0 评论 -
【数仓】Kafka消息可视化工具:Offset Explorer(原名kafka Tool)
Offset Explorer(以前称为Kafka Tool)是一个用于管理和使用Apache Kafka®集群的GUI应用程序。它提供了一个直观的界面,允许用户快速查看Kafka集群中的对象以及集群主题中存储的消息。它包含面向开发人员和管理员的功能。Offset Explorer仅供个人使用。未经购买许可,不得进行任何非个人使用,包括商业,教育和非营利工作。非个人使用可在下载Offset Explorer后的30天内进行评估,之后您必须购买有效许可证或删除该软件。原创 2024-03-08 09:10:52 · 5925 阅读 · 7 评论 -
【数仓】flume常见配置总结,以及示例
Flume的核心组件包括Source、Channel和Sink。Source负责从数据源中读取数据,可以是文件、网络套接字、消息队列等;Channel是数据的缓冲区,用于在Source和Sink之间传输数据;Sink负责将数据写入目标存储系统,如HDFS、HBase、Kafka等。此外,Flume还支持多种类型的Source、Channel和Sink,用户可以根据实际需求进行选择和配置。原创 2024-03-06 09:36:31 · 1144 阅读 · 0 评论 -
【数仓】flume软件安装及配置
Apache Flume是一个分布式、可靠且可用的大数据日志采集、聚合和传输系统。它主要用于将大量的日志数据从不同的数据源收集起来,然后通过通道(Channel)进行传输,最终将数据传输到指定的目的地,如HDFS、HBase等。Flume具有高度可扩展性、容错性和灵活性,可以适应各种复杂的数据采集场景原创 2024-03-06 09:33:45 · 1682 阅读 · 0 评论 -
【数仓】kafka软件安装及集群配置
Kafka集群的配置涉及多个方面,包括broker、Zookeeper、producer和consumer的配置。不过,通常我们主要关注的是broker和Zookeeper的配置,因为它们是构成Kafka集群的基础。以上只是Kafka配置的一部分,实际上Kafka的配置项非常多,可以根据具体的需求和场景进行调整。请注意,配置项的默认值可能会随着Kafka版本的更新而发生变化,因此建议查阅对应版本的官方文档以获取最准确的信息。:监听的网络端口和协议,用于客户端和其他brokers的连接。原创 2024-03-02 10:59:12 · 1888 阅读 · 8 评论 -
【数仓】zookeeper软件安装及集群配置
考虑到事务日志的写入性能会直接影响到ZooKeeper的整体性能,因此建议将事务日志存储在一个专门的、拥有良好I/O性能的磁盘上。它是以毫秒为单位的,并且ZooKeeper中所有的时间都是以这个为基础进行整数倍的配置。在配置ZooKeeper集群时,还需要设置一些其他的参数,如server.x配置项,用于指定ZooKeeper集群中的服务器地址和端口等信息。:这是ZooKeeper集群中的Follower服务器与Leader服务器之间初始连接时能容忍的最多心跳数(以tickTime为单位)。原创 2024-03-02 10:52:40 · 1007 阅读 · 0 评论 -
【数仓】Hadoop集群配置常用参数说明
Hadoop集群中,需要配置的文件主要包括四个:核心Hadoop参数、HDFS参数、MapReduce参数、YARN参数原创 2024-03-01 15:07:28 · 1556 阅读 · 3 评论 -
【数仓】Hadoop软件安装及使用(集群配置)
Hadoop集群环境配置,环境准备以及实操步骤,详细介绍Hadoop集群的各个操作步骤原创 2024-03-01 15:02:21 · 1500 阅读 · 7 评论 -
【数仓】数据分层概念以及相关逻辑
在数仓项目中,常见的数据分层包括以下几种:1)这一层存放原始数据,通常直接加载原始日志或数据源中的数据,并保持数据的原貌不做处理。它是后续数据处理的基础。2)该层与ODS层的数据结构和粒度保持一致,但对ODS层的数据进行了清洗,包括去除空值、脏数据和超过极限范围的数据等。有时也被称为DWI层。3)以DWD层为基础,这一层进行了轻度汇总。通常会聚集到以用户、设备、商家、商品等为主题的粒度,为上层的数据应用提供基础数据。4)面向实际的数据需求,以DWD或DWS层的数据为基础,组成各种统计报表。原创 2024-02-29 11:34:37 · 4561 阅读 · 0 评论 -
【数仓】基本概念、知识普及、核心技术
数仓的定义:数仓的特点:数仓与数据库的区别:数仓的架构:数仓的应用:数仓的发展趋势:数据建模:数据抽取、转换和加载(ETL):数据质量管理:数据安全与隐私:元数据管理:数据仓库的性能优化:数据仓库与数据湖:实时数据仓库:数据仓库的维护和升级:数仓,即数据仓库(Data Warehouse),是一个大型、集中式的存储和处理数据的系统,通常用于支持企业或组织的决策分析处理。数仓的主要目标是提供决策支持,它整合来自不同业务系统的数据,并进行清洗、转换和加载,以提供一致、准确、及时的数据视图。原创 2024-02-28 17:56:23 · 4498 阅读 · 4 评论