
大数据生态
文章平均质量分 72
大数据生态
Bulut0907
大数据、机器学习、编程语言、IT相关技术分享, 喜欢请关注、点赞、收藏哦!
展开
-
分布式事务框架Seata 1.6.1安装
script/server/db/mysql.sql脚本,提供了创建global_table、branch_table、lock_table、distributed_lock表,和向distributed_lock表写入数据的sql语句。这里我们事务日志使用db进行储存(可选参数:file、db、redis,默认为file)。配置session和lock的事务日志使用db进行储存,和mysql的连接。先运行script/server/db/mysql.sql脚本,进行建表和插入数据。原创 2025-03-24 07:30:35 · 413 阅读 · 0 评论 -
分布式一致性算法的CAP理论和一致性模型
弱一致性(最终一致性),即保证AP。当分布式数据库写入一条数据,不能立刻读到,需要等一段时间才能读到。数据库有CouchDB、DynamoDB、Riak。通常都会满足一致性和分区容错性,尽可能的满足可用性(99.999999%)原创 2025-03-03 11:30:35 · 211 阅读 · 0 评论 -
在Centos7上全分布式安装kafka2.8.0
目录1. 下载2. 编辑config/server.properties3. 分发kafka目录4. 启动kafka示例共3台服务器,分别为bigdata001、 bigdata002、 bigdata0031. 下载在bigdata001上操作curl -O https://archive.apache.org/dist/kafka/0.10.0.0/kafka_2.11-0.10.0.0.tgztar -zxvf kafka_2.11-0.10.0.0.tgzcd kafka_2.1原创 2021-06-09 14:29:49 · 2745 阅读 · 0 评论 -
调度工具Azkaban版本3.90.0安装
目录1. 下载、修改源码、编译2. 安装2.1 在mysql中创建azkaban数据库和Azkaban相关表2.2 安装Executor Server2.3 安装Web Server1. 下载、修改源码、编译下载和解压[root@bigdata001 opt]#[root@bigdata001 opt]# wget -O azkaban-3.90.0.tar.gz https://codeload.github.com/azkaban/azkaban/tar.gz/refs/tags/3.90.原创 2022-01-09 22:05:00 · 6898 阅读 · 0 评论 -
Azkaban以Http Api方式管理azkaban和flow(Python版本)
目录1. python代码1. python代码import requestsimport osimport shutilimport zipfileazkaban_url="http://192.168.8.111:8050"azkaban_username="azkaban"azkaban_password="azkaban"project_name = "test_project"flow_name = "test"azkaban_zip_dir_base_path = "C:原创 2022-05-18 10:46:25 · 834 阅读 · 0 评论 -
元数据管理Datahub基于Docker进行部署
安装的docker-compose v1是当前的最新版v1.29.2。如果还没有导入我们自己的元数据,可以使用如下命令清除Datahub的所有containers、volumes、networks(包括我们刚刚导入的官方提供的测试元数据)这里安装的是Docker当前最新版,docker-ce-20.10.17、docker-ce-cli-20.10.17、containerd.io-1.6.6。安装的是当前最新的datahub 0.8.38。Docker的安装请参考我的博客。先安装datahub的安装包。原创 2023-01-05 08:57:29 · 3906 阅读 · 7 评论 -
元数据管理Datahub架构讲解
Datahub的采用了model-first的架构理念,通过提供一个通用的元数据管理模型,再通过插件的方式集成各种数据平台,进行元数据的导入。整体的架构如下:元数据同步方式多样:可以使用Rest、GraphQL API-s、Avro API(从Kafka消费元数据)数据平台的元数据更改可以实时的被同步到Datahub;在Datahub对元数据进行更改,可以实时的在数据平台进行更新用于储存Metadata Graph的Entities和Aspects(关系)。同时提供插入和查询API。原创 2023-01-04 08:52:47 · 4352 阅读 · 0 评论 -
元数据管理Datahub基本介绍和特点
Datahub是现代数据栈的元数据管理平台。能够从不同的平台(比如mysql、Airflow、Superset)将元数据同步到Datahub。提供统一的元数据搜索和治理,能降低开发人员的数据探索复杂性。原创 2023-01-03 09:07:11 · 6467 阅读 · 6 评论 -
元数据管理Datahub导入Mysql数据库元数据
Mysql的元数据同步,是一种Pull的同步方式。只能做到全量或批增量的元数据同步。再次运行同步,如果Mysql表的元数据未发生变更,则同步到Datahub不会产生新的版本,同步的速度会很快;如果Mysql表的元数据发生变更,则同步到Datahub会产生新的版本,新的版本和旧的版本可以切换查看。定义导入元数据的数据库相关信息,和导入的sink信息,这里导入的sink类型为datahub-rest。这里的database貌似并不能作过滤作用。会同步Mysql服务所有数据库表的元数据。原创 2023-01-10 08:50:11 · 1568 阅读 · 0 评论 -
企业级数据中台构建方法和指导
数据中台就是要在整个企业中形成一个公共数据层,消灭这些跨部门的小数仓,实现数据的复用,所以强调数据只加工一次,不会因为不同的应用场景,不同的部门数据重复加工。数据中台的核心理念是"数据取之于业务,用之于业务",数据中台着眼于业务的积累和沉淀,构建了从数据生产到消费、消费后数据返回到生产的闭环过程。既要维护之前的数据平台,又要构建新的数据平台,需要大量的人力和时间。数据产品部门:负责数据中台、数据产品的体系规划、产品设计、规范制定、应用效果跟进,指标口径的定义和维护(有的部门是由分析师管理)原创 2023-01-11 07:56:17 · 1679 阅读 · 0 评论 -
数据仓库的特点、数据仓库分层、数据仓库模型
目录1. OLTP、OLAP、HTAP2. 数据仓库的特点3. 数据仓库分层4. 事实表和维度表5. 星型模型和雪花模型1. OLTP、OLAP、HTAPOLTP:联机事务处理,特点是事务操作频繁、数据量小,基于ER模型。比如ERP系统、CRM系统、电商系统OLAP:联机分析处理,特点是没有事务性操作,主要用于查询数据进行分析,为决策提供帮助,数据量大。比如数据仓库2. 数据仓库的特点面向主题的:根据分析需求对数据进行组织,划分成多个主题,如销售主题数据集成的:针对主题,将多个分散的数据源原创 2022-04-19 18:26:21 · 1644 阅读 · 0 评论 -
Superset航班数据可视化实战
目录1. 航班数据格式2. 开启数据库文件上传功能3. 上传CSV文件4. 创建图表5. Dashboard操作6. Pivot表7. 折线图(多线)8. 给Dashboard添加markdown描述1. 航班数据格式主要字段信息如下:部门:用Orange、Yellow、Purple代替票价舱的类型单程或往返航班日期航班起始地和目的地航班飞行距离下载方式:从github下载地址进行下载,用浏览器直接打开文件了,可以使用linux的wget命令进行下载,再上传到本地2. 开启数据库原创 2021-09-05 09:08:06 · 3008 阅读 · 2 评论 -
Superset添加clickhouse连接、table数据集、charts图表的操作
目录1. 添加Clickhouse数据库连接2. table数据集操作3. charts图表的操作3.1 通过SQL工具箱创建图表1. 添加Clickhouse数据库连接安装python3依赖包(superset) [root@bigdata005 python3]# (superset) [root@bigdata005 python3]# pip3 install clickhouse-driver==0.2.0(superset) [root@bigdata005 python3]# (s原创 2021-09-04 13:50:52 · 3282 阅读 · 4 评论 -
Centos7安装可视化工具Superset1.2.0(含中文配置)
目录1. 安装superset的依赖2. 安装python3. 安装Superset的python3.7虚拟环境4. 安装mysql客户端、在mysql中创建superset元数据库5. 安装superset6. 配置6.1 superset_config.py6.2 中文汉化的配置7. superset初始化相关操作8. 启动9. 查看web页面1. 安装superset的依赖[root@bigdata005 ~]# [root@bigdata005 ~]# yum install -y libff原创 2021-09-02 22:09:31 · 7998 阅读 · 0 评论 -
Apache DolphinScheduler的架构、特点
目录1. Apache DolphinScheduler架构2. DolphinScheduler体验2.1 准备工作2.2 下载解压2.3 启动DolphinScheduler2.4 登录Web页面1. Apache DolphinScheduler架构特点:如果任务过多,Master采用任务缓存队列,来避免过载支持多租户任务支持重试、从指定节点恢复失败、暂停及Kill任务等操作支持流程实例和任务实例的优先级支持SQL任务查询结果邮件发送支持区间并行和串行两种补历史数据的方式模块介绍原创 2022-05-25 09:23:13 · 986 阅读 · 0 评论 -
Apache DolphinScheduler版本2.0.5分布式集群的安装
伪集群模式(Pseudo-Cluster)是在单台机器部署DolphinScheduler各项服务,该模式下master、worker、api server、logger server等服务都只在同一台机器上,但位于不同的进程。集群模式(Cluster)与伪集群模式的区别就是在多台机器部署DolphinScheduler各项服务,并且Master、Worker等服务可配置多个。可能有的服务没有启动,先stop所有服务,再start所有服务。参数,自动在所有服务器上创建目录,并上传安装所需要的资源。...原创 2022-08-02 17:31:10 · 1509 阅读 · 0 评论 -
Apache DolphinScheduler的工作流传参
使用add_months()函数,该函数用于加减月份, 第一个入口参数为[yyyyMMdd],表示返回时间的格式,第二个入口参数为月份偏移量,表示加减多少个月。本地参数:作用于工作流的当前任务节点,在任务定义页面进行配置。如下所示,其中IN表示本地参数。当参数名相同时,参数的优先级从高到低为:本地参数 > 上游任务传递的参数 > 全局参数。全局参数:作用于工作流的所有任务节点有效。进行key和value的设置,再通过OUT的方式将key传递到下游。下游直接进行参数的获取即可,如下所示。...原创 2022-08-11 09:21:19 · 4204 阅读 · 2 评论 -
Apache DolphinScheduler的资源中心开启HDFS功能
这里会报【租户不存在】的错误。原因是admin用户的租户ID默认是0,和新创建的租户root没有关联上,需要将admin用户的租户ID修改成租户root的ID。在mysql数据库的操作如下。DolphinScheduler的资源中心默认是不能往HDFS上传文件的,需要我们配置进行开启。重启DolphinScheduler所有服务。需要先创建租户,如下所示。再次创建文件夹就成功了。......原创 2022-08-10 09:52:17 · 5418 阅读 · 0 评论 -
Zookeeper取消打印org.apache.zookeeper.ClientCnxn类的DEBUG日志
目录1. 大量org.apache.zookeeper.ClientCnxn类的DEBUG日志1. 大量org.apache.zookeeper.ClientCnxn类的DEBUG日志Zookeeper版本:3.4.5解决办法:在src/main/resources下创建logback.xml文件内容如下:<?xml version="1.0" encoding="UTF-8"?><configuration> <appender name="原创 2022-03-03 22:35:27 · 1213 阅读 · 4 评论 -
基于Centos7分布式安装Zookeeper3.6.3、ZooInspector可视化工具使用
目录1. 安装要求2. 下载(在bigdata001操作)3. 配置conf/zoo.cfg(在bigdata001操作)3.1 编辑zoo.cfg4. ZK目录分发(在bigdata001操作)4.1 修改myid启动ZK1. 安装要求至少3台服务器,本示例3台服务器的hostname分别为bigdata001、bigdata002、bigdata003每台服务器安装Java82. 下载(在bigdata001操作)curl -O https://archive.apache.org/dis原创 2021-06-09 11:46:38 · 3167 阅读 · 2 评论