
▷大数据
文章平均质量分 90
大数据
爱是与世界平行
努力钻研学习中................
展开
-
xxl-job分布式任务调度平台
XXL-JOB是一个分布式任务调度平台,其核心设计目标是开发迅速、学习简单、轻量级、易扩展。原创 2023-03-09 09:51:41 · 2134 阅读 · 0 评论 -
数据同步工具Sqoop
Apache Sqoop(SQL-to-Hadoop)项目旨在协助RDBMS(Relational Database Management System:关系型数据库管理系统)与Hadoop之间进行高效的大数据交流。用户可以在 Sqoop 的帮助下,轻松地把关系型数据库的数据导入到 Hadoop 与其相关的系统 (如HBase和Hive)中;同时也可以把数据从 Hadoop 系统里抽取并导出到关系型数据库里。原创 2023-03-07 18:42:18 · 2805 阅读 · 0 评论 -
元数据管理、治理、系统、建设方案、范例等
如果想建设好元数据系统,需要理解元数据系统的相关概念,如数据、数据模型、元数据、元模型、ETL、数据血缘等等。首先,要清楚数据的定义、数据模型的定义。数据一般是对客观事物描述的抽象,在数据库维度,数据是数据记录的简称,例如,个人的基本信息、产品信息等。数据模型是数据特征的抽象,它从抽象层次上描述了系统的静态特征、动态行为和约束条件,为数据库系统的信息表示与操作提供一个抽象的框架。数据模型所描述的内容有三部分,分别是数据结构、数据操作和数据约束。原创 2023-03-06 15:49:36 · 7885 阅读 · 0 评论 -
Hive元数据信息获取
放到mysql中存储,mysql中默认表被创建的时候用的是默认的字符集(latin1),所以会出现中文乱码。(2)修改hive-site.xml中Hive读取元数据的编码(注意原先是否配置过)注意的是,之前创建的表的元数据已经损坏了,所以无法恢复中文乱码,只能重新创建表。原创 2023-03-06 10:37:16 · 2101 阅读 · 0 评论 -
元数据管理实践&数据血缘
元数据血缘技术调研想把整个链路的数据血缘打通,避免不了自己去针对某个链路进行数据解析和采集,所以必须选择一款扩展性强的产品 首先应该搞清楚一个问题,我们究竟想要做成一个怎样的产品?是一个仅仅供内部使用,主要为了解决日常痛点,交互体验差一点也可以容忍?还是想做成一个成熟的,可以商业化的产品?具体的方案设计应该结合产品需求以及研发能力来综合考虑大概有三种做法:1、完全自研能做到最大的灵活性和体验,产品高度适配业务,但是有较高的研发成本,投入要求高2、使用开源产品,扩展功能。原创 2023-03-01 15:04:58 · 4407 阅读 · 0 评论 -
数据治理之元数据管理Atlas
在当今大数据的应用越来越广泛的情况下,数据治理一直是企业面临的巨大问题。大部分公司只是单纯的对数据进行了处理,而数据的血缘,分类等等却很难实现,市场上也急需要一个专注于数据治理的技术框架,这时Atlas应运而生。Atlas官网地址:https://atlas.apache.org/,Atlas是Hadoop的数据治理和元数据框架。文档查看地址:https://atlas.apache.org/2.1.0/index.html。原创 2023-02-27 14:36:44 · 2835 阅读 · 0 评论 -
DataX及DataX-Web
DataX 是阿里云DataWorks数据集成的开源版本,在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS 等各种异构数据源之间高效的数据同步功能。原创 2023-02-21 15:47:07 · 2519 阅读 · 0 评论 -
Hive手册
Hive由Facebook实现并开源,基于Hadoop的一个数据仓库工具,可以将结构化的数据映射为一张数据库表,并提供**HQL(Hive SQL)**查询功能,底层数据是存储在HDFS上。Hive的本质是将SQL语句转换为 MapReduce任务运行,使不熟悉MapReduce的用户很方便地利用HQL处理和计算HDFS上的结构化的数据,适用于离线的批量数据计算。原创 2023-02-14 09:59:44 · 3735 阅读 · 0 评论 -
Hive的分区表与分桶表&内部表外部表
Hive将表划分为分区(partition)表和分桶(bucket)表。分区表在加载数据的时候可以指定加载某一部分数据,并不是全量的数据,可以让数据的部分查询变得更快。分桶表通常是在原始数据中加入一些额外的结构,这些结构可以用于高效的查询,例如,基于ID的分桶可以使得用户的查询非常的块。分区表与分桶表是可以一起使用的。原创 2023-02-14 09:59:03 · 1625 阅读 · 0 评论 -
Hive数仓建设手册
数据仓库分为三层,自下而上为:数据引入层ODS(Operation Data Store):存放未经过处理的原始数据至数据仓库系统,结构上与源系统保持一致,是数据仓库的数据准备区。主要完成基础数据引入到MaxCompute的职责,同时记录基础数据的历史变化。数据公共层CDM(Common Data Model,又称通用数据模型层):包括DIM维度表、DWD和DWS,由ODS层数据加工而成。原创 2023-01-30 09:30:10 · 1221 阅读 · 0 评论 -
数据集成产品分析
数据同步致力于保证数据在不同数据源之间被高效准确地迁移。1)离线同步主要用于大批量数据的周期性迁移,对时效性要求不高,一般采用分布式批量数据同步方式,通过连接读取数据,读取数据过程中可以有全量、增量方式,经过统一处理后写入目标存储。成熟的产品有:Sqoop、DataX、kettle等。2)实时同步针对数据时效性要求高的场景,其将源端数据的变化实时同步到目标端数据源中,保证源端数据与目标端数据实时保持一致,就可满足业务实时查询分析使用数据或实时计算等需求。成熟的产品有:Canal、otter等。原创 2022-11-25 18:15:47 · 1466 阅读 · 1 评论 -
数据治理体系
数据治理是一个长期工作,需要相关从业者根据企业的数据现状和管理模式去构建和调整,建议边做实践边总结归纳,小步慢跑是一个很好的方式。对比一看,两者的字段类型和长度一致,到底要采纳哪个意见呢?长效机制,规范数据管控流程,提升数据质量,促进数据标准一致,保障数据共享与使用安全,从而提高企业运营效率和管理水平。一般来说,数据从外部或者内部产生后,经过大数据手段处理,流转到不同的业务端,为企业的上层应用提供数据赋能。如何盘活数据,形成数据资产,提供完整的数据资产全景视图,可方便运营者全局、宏观地掌控企业资产动态。原创 2022-11-25 18:13:31 · 780 阅读 · 0 评论 -
数据质量建设
根据当数据质量不满足完整性、规范性、一致性、准确性、唯一性、及时性时,对业务的影响程度大小来划分数据的资产等级。毁灭性:数据一旦出错,会引起巨大的资产损失,面临重大收益受损等。标记为 L1全局性:数据用于集团业务、企业级效果评估和重要决策任务等。标记为 L2局部性:数据用于某个业务线的日常运营、分析报告等,如果出现问题会给该业务线造成一定的影响或影响其工作效率。标记为 L3一般性:数据用于日常数据分析,出现问题的带来的影响很小。标记为 L4未知性质:无法追溯数据的应用场景。标记为 Lx。原创 2022-11-25 18:11:06 · 1410 阅读 · 0 评论 -
数据仓库开发
CDM:公共数据层,由DWD+DWS+ADS+DIM共同构成公共处理逻辑收敛和下沉统一公共指标和公共维度,减少数据的不一致性建立整个业务范围内的一致性维度,并确保使用;实体表,不大,就可以做每日全量。对于维度表,比如说商品分类,这种不是很大,也可以做每日全量,有一些不太会发生改变的维度,就可以固定保存一份值,比如说:地区,种族等。像事务型事实表,比如说交易流水,操作日志,出库信息,这种每日比较大,且需要历史数据的,就根据时间做每日新增,可以利用分区表,每日做分区存储。像周期型事实表。原创 2022-11-25 18:09:16 · 2753 阅读 · 0 评论 -
数仓建设教程
需要针对不同需求的用户开发不同的产品,所以公司内部有很多条业务线,但是对于数据部门来说,所有业务线的数据都是数据源。对数据的划分不只是根据业务进行,而是结合数据的属性。一张图总结下数据仓库的构建整体流程:数据中台本文以电商业务为例,展示实时数仓的数据处理流程。另外,本文旨在说明实时数仓的构建流程,所以不会涉及复杂的数据计算。为了保证案例的可操作性和完整性,本文会给出详细的操作步骤。为了方便演示,本文的所有操作都是在Flink SQL Cli中完成。要想真正解决数据质量问题,就要。原创 2022-11-25 18:06:53 · 5788 阅读 · 3 评论 -
实时数据平台设计
实时大数据平台设计原创 2022-11-22 17:01:31 · 1953 阅读 · 0 评论 -
元数据管理系统
如果想建设好元数据系统,需要理解元数据系统的相关概念,如数据、数据模型、元数据、元模型、ETL、数据血缘等等。首先,要清楚数据的定义、数据模型的定义。数据一般是对客观事物描述的抽象,在数据库维度,数据是数据记录的简称,例如,个人的基本信息、产品信息等。数据模型是数据特征的抽象,它从抽象层次上描述了系统的静态特征、动态行为和约束条件,为数据库系统的信息表示与操作提供一个抽象的框架。数据模型所描述的内容有三部分,分别是数据结构、数据操作和数据约束。原创 2022-11-22 16:35:14 · 11187 阅读 · 2 评论 -
一站式元数据治理平台——Datahub
首先,阿里云也有一款名为DataHub的产品,是一个流式处理平台,本文所述DataHub与其无关。数据治理是大佬们最近谈的一个火热的话题。不管国家层面,还是企业层面现在对这个问题是越来越重视。数据治理要解决数据质量,数据管理,数据资产,数据安全等等。而数据治理的关键就在于元数据管理,我们要知道数据的来龙去脉,才能对数据进行全方位的管理,监控,洞察。DataHub是由LinkedIn的数据团队开源的一款提供元数据搜索与发现的工具。原创 2022-11-22 16:18:44 · 3366 阅读 · 0 评论 -
万字详解数仓分层设计架构 ODS-DWD-DWS-ADS
只有数据模型将数据有序的组织和存储起来之后,大数据才能得到高性能、低成本、高效率、高质量的使用。1)清晰数据结构每一个数据分层都有它的作用域,这样我们在使用表的时候能更方便地定位和理解。数据关系条理化:源系统间存在复杂的数据关系,比如客户信息同时存在于核心系统、信贷系统、理财系统、资金系统,取数时该如何决策呢?数据仓库会对相同主题的数据进行统一建模,把复杂的数据关系梳理成条理清晰的数据模型,使用时就可避免上述问题了。2)数据血缘追踪简单来讲可以这样理解,我们最终给业务诚信的是一能直接使用的张业务表,但是它的转载 2022-11-13 21:25:50 · 1513 阅读 · 0 评论 -
CDH集群离线部署
修改Cloudera Agent配置文件/etc/cloudera-scm-agent/config.ini,配置server_host为主节点cdh-1。CDH的安装包都是rpm包如果使用rpm安装方式安装起来是比较复杂的,会有很多依赖问题需要解决,就需要使用yum帮助我们解决依赖问题。主流的有Apache Ambari和Cloudera Manager,相对应的Hadoop的发行版为HDP和CDH。Agent:安装在每台主机上。Server:负责软件安装、配置,启动和停止服务,管理服务运行的群集。原创 2022-11-07 16:58:14 · 934 阅读 · 0 评论 -
HBase 知识手册
HBase 是 BigTable 的开源 Java 版本。是建立在 HDFS 之上,提供高可靠性、高性能、列存储、可伸缩、实时读写 NoSql 的数据库系统。它介于 NoSql 和 RDBMS 之间,仅能通过主键(row key)和主键的 range 来检索数据,仅支持单行事务(可通过 hive 支持来实现多表 join 等复杂操作)。主要用来存储结构化和半结构化的松散数据。Hbase 查询数据功能很简单,不支持 join 等复杂操作,不支持复杂的事务(行级的事务) Hbase 中支持的数据类型:byte[原创 2022-11-02 14:47:30 · 758 阅读 · 0 评论 -
Hive大数据开发
Hive由Facebook实现并开源,基于Hadoop的一个数据仓库工具,可以将结构化的数据映射为一张数据库表,并提供**HQL(Hive SQL)**查询功能,底层数据是存储在HDFS上。Hive的本质是将SQL语句转换为 MapReduce任务运行,使不熟悉MapReduce的用户很方便地利用HQL处理和计算HDFS上的结构化的数据,适用于离线的批量数据计算。原创 2022-11-01 23:10:31 · 1615 阅读 · 0 评论 -
HBase RowKey设计
检索habse的记录首先要通过row key来定位数据行。当大量的client访问hbase集群的一个或少数几个节点,造成少数region server的读/写请求过多、负载过大,而其他region server负载却很小,就造成了“热点”现象。原创 2022-10-26 10:31:37 · 1798 阅读 · 0 评论 -
数据同步工具Sqoop
Apache Sqoop(SQL-to-Hadoop)项目旨在协助RDBMS(Relational Database Management System:关系型数据库管理系统)与Hadoop之间进行高效的大数据交流。用户可以在 Sqoop 的帮助下,轻松地把关系型数据库的数据导入到 Hadoop 与其相关的系统 (如HBase和Hive)中;同时也可以把数据从 Hadoop 系统里抽取并导出到关系型数据库里。原创 2022-10-26 10:28:56 · 2240 阅读 · 0 评论 -
大数据平台搭建及集群规划
例如,假设总共需要存储 800TB 的数据,HDFS 的块副本数为 3,如果每个 DataNode 配置 10 块 8T 的硬盘,那么,采购 30 台 DataNode 服务器即可。在每个机柜中都可部署相应的 Hadoop 服务,可以看出,机柜 1 和 2 分别部署了 NameNode 的主、被节点,这两个主、备节点分开部署到不同的机柜,可以最大限度保证 NameNode 的可靠性,不建议将主、备节点部署到同一个机柜中,因为如果某个机柜发生故障(电源故障、网络故障),那么主、备将失去存在的意义。原创 2022-10-26 10:24:40 · 4300 阅读 · 1 评论 -
云原生数据湖应用洞察白皮书
数据湖是面向大数据场景的创新解决方案。早期,业界和用户多把数据湖定义为一个储存原始格式数据的系统,可容纳结构化、半结构化、非结构化及二进制的数据。随着大数据技术的融合发展,数据湖的边界不断扩展,内涵也发生了变化。数据湖开始汇集各方面技术,逐步演进成为集多源异构数据统一储存、多范式计算分析及统一管理调用的大数据综合解决方案。它可以更加高效率低成本地管理海量多源异构数据,打通数据孤岛,释放数据价值,助力新时代下各行业企业的数字化转型。原创 2022-09-15 16:37:42 · 263 阅读 · 0 评论 -
超大规模时空数据的分布式存储与应用
超大规模时空数据的分布式存储与应用01 面向时空数据的存储与应用1. 时空数据的发展历程2. 常见的异构时空数据类型3. 各具特色的分布式数据存储4. 分布式一体化时空数据访问① 优势1-通用数据读写API② 优势2-参数标识数据源类型③ 优势3-按需查询多源数据02 面向空间计算的存储与应用1. 空间数据索引2. 基于DSF的分布式计算步骤3. 分布式空间文件引擎的应用范围4. 基于DSF的应用案例1-农经数据建库5. 基于DSF的应用案例2-四川省土地确权业务6. 基于DSF的应用案例3-全球耕地面积统转载 2021-09-24 15:36:19 · 627 阅读 · 0 评论 -
Hadoop or TDengine,如何做物联网大数据平台的选型?
Hadoop or TDengine,如何做物联网大数据平台的选型?1. 大数据时代大数据时代,大家都在说什么叫大数据,强调的就是一个“大”字,人们期望对海量数据的挖掘和运用能够获取到更多有价值的东西。其来源包括:微信聊天数据,淘宝&京东等电商数据,高速收费站的数据,摩拜等共享单车产生的数据,股票交易数据,天文望远镜产生的数据等等,这些数据有的是物联网的数据,有的是时序数据,有的不是时序数据,比如微信和淘宝、京东等产生的数据就不在本次讨论范围内。物联网的数据可以分为两类,静态数据和动态数.转载 2021-08-11 18:41:12 · 1737 阅读 · 0 评论 -
Dbeaver 连接 phoenix
Dbeaver 连接 phoenix1.新建连接2.选择连接类型Phoenix3.设置驱动4.准备驱动包5.添加驱动6.添加 Zookeeper Base Path7.找到驱动类8.配置连接属性9.测试连接10.DBeaver使用10.1使用SQL查询10.2主要操作界面介绍11.Dbeaver 连接 phoenix出现的问题11.1 测试连接成功后,库表显示不出来11.2配置JDK相关优秀内...原创 2020-01-16 16:45:06 · 3242 阅读 · 7 评论 -
SparkMLlib—协同过滤之交替最小二乘法ALS原理与实践
SparkMLlib—协同过滤之交替最小二乘法ALS原理与实践一、Spark MLlib算法实现1.1 显示反馈1.1.1 基于RDD1.1.2 基于DataFrame1.2 隐式反馈二、Spark中MLlib中的ALS算法物品推荐代码实现;相关内容原文地址:优快云:leboop:Spark MLlib协同过滤之交替最小二乘法ALS原理与实践优快云:Jantelope:Spark中ML...原创 2019-12-25 16:11:49 · 1171 阅读 · 0 评论 -
大数据平台架构
大数据平台架构基于HBase和Spark构建企业级数据处理平台1.1 一站式数据处理平台架构1.2 典型业务场景1.2.1 爬虫+搜索引擎1.2.2 大数据风控系统1.2.3 构建数据仓库(推荐、风控)基于HBase和Spark构建企业级数据处理平台[基于HBase和Spark构建企业级数据处理平台]:阿里云数据库 李伟(沐远) PPT 演讲稿1.1 一站式数据处理平台架构1.2 典型业...原创 2019-12-23 09:48:15 · 635 阅读 · 0 评论 -
HBase二级索引、读写流程
HBase二级索引HBse二级索引方案基于Coprocessor方案Phoenix二级索引特点Phoenix 二级索引方案相关优秀博文案例:博客园:花未全开*月未圆:HBase的二级索引博客园:small_k:hbase实践之协处理器Coprocessor简书:5c7b85ab9023:Hbase使用Coprocessor构建二级索引HBase本身只提供基于行键和全表扫描的查询,而行...原创 2019-12-23 09:31:15 · 526 阅读 · 0 评论 -
SparkMLlib—协同过滤推荐算法,电影推荐系统,物品喜好推荐
MLlib——协同过滤推荐算法一、协同过滤1.1 显示vs隐式fankui1.2 实例介绍1.2.1 数据说明评分数据说明(ratings.data)用户信息(users.dat)电影信息(movies.dat)程序代码相关内容原文地址:博客园:Lemon_Qin:MLlib-协同过滤博客园:大数据和AI躺过的坑:Spark MLlib协同过滤算法一、协同过滤协同过滤(Collabo...原创 2019-12-20 14:54:18 · 2906 阅读 · 1 评论 -
Spark Pipeline
Spark Pipeline一、Spark Pipeline1.1 机器学习管道(Pipeline)1.2 数据管道组件构成1.3 构建Pipeline1.4 预测Pipeline一、Spark Pipeline1.1 机器学习管道(Pipeline)由一系列阶段构成,每个阶段是Transformer或Estimator,它们串联到一起按照顺序执行。1.2 数据管道组件构成Transfo...原创 2019-12-18 14:04:21 · 685 阅读 · 0 评论 -
Spark MLlib
Spark MLlib一、Spark MLlib模型选择与调参CrossValidatorTrainValidationSplit部分内容原文地址:掘金:美图数据团队:从Spark MLlib到美图机器学习框架实践一、Spark MLlib在 Spark 官网上展示了逻辑回归算法在 Spark 和 Hadoop 上运行性能比较,从下图可以看出 MLlib 比 MapReduce 快了 ...原创 2019-12-18 09:22:15 · 909 阅读 · 0 评论 -
Java 操作 HBase 教程
Java 操作 HBase 教程一、简介二、hbase-client 引入三、连接操作四、表操作五、运行测试相关博文原文地址:博客园:美码师:HBase(2) Java 操作 HBase 教程一、简介HBase 本身就是用 Java 编写的,天生自带了 Java 原生API。 我们可以通过 hbase-client 来实现 HBase 数据库的操作。所以,这次主要介绍该组件的基本用法...转载 2019-12-10 14:44:50 · 992 阅读 · 0 评论 -
Phoenix简介概述,Phoenix的Java API 相关操作优秀案例
Phoenix一、Phoenix概述简介二、Phoenix实例一:Java API操作2.1 phoenix.properties2.2 pom.xml2.3 configutils.java2.4 PhoenixTest.java三、Phoenix实例二:Java API操作3.1 pom.xml中加入依赖3.2 JDBC3.3 serviceImpl一、Phoenix概述简介Phoeinx...原创 2019-07-24 11:25:05 · 3172 阅读 · 0 评论 -
大数据监控平台实践之路
大数据监控平台实践之路一、监控体系业务层:应用层:系统层:二、架构设计Telegraf:input:output:调度频率:服务启动:InfluxDB:服务启动:常用命令:Grafana:Grafana主要特性:简单使用介绍:原文地址:大数据监控平台实践之路一、监控体系监控粒度、监控指标完整性、监控实时性是评价监控系统的三要素。从分层体系可以把监控系统分为三个层次:业务层:业务系统...转载 2019-11-08 21:38:38 · 2382 阅读 · 0 评论 -
大厂大数据相关架构文章
大厂大数据相关架构文章一、滴滴实时计算发展之路及平台架构实践二、58HBase平台实践和应用—时序数据库篇一、滴滴实时计算发展之路及平台架构实践zhisheng_tian:滴滴实时计算发展之路及平台架构实践二、58HBase平台实践和应用—时序数据库篇58技术 ,作者何良均/张祥:58HBase平台实践和应用—时序数据库篇...原创 2019-11-05 14:37:11 · 683 阅读 · 0 评论 -
Linux命令之Crontab定时任务,利用Crontab定时执行spark任务
Spark:使用Crontab定时执行Spark任务一、使用Crontab定时执行Spark任务一、使用Crontab定时执行Spark任务优快云:Trigl使用Crontab定时执行Spark任务原创 2019-11-04 11:32:56 · 1357 阅读 · 0 评论