大数据
文章平均质量分 95
介绍大数据体系相关技术
夜夜流光相皎洁_小宁
九零后技术大叔,从事信息安全行业,架构师,JavaWeb、大数据、移动应用开发,关注移动应用安全、大数据安全、云原生安全、网络安全渗透、攻防等领域;喜欢交流和分享,喜欢读书,什么书都会读一读,比较杂;闲暇时间喜欢做技术总结,喜欢探索技术、解锁新技能。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
数据中台之数据开发-算法开发
数据集是算法建模过程中不可或缺的原材料。由于企业业务场景的复杂性,算法开发过程需要管理并整合不同来源的数据,同时对数据集进行标注和可视化探查,使数据的使用更高效,简化建模流程。作为统一维护数据集的场所,数据集管理需要考虑的功能点如下。为了提高可用性和降低使用门槛,主流机器学习平台都会提供内置的机器学习算法组件,覆盖从数据接入、数据预处理、特征工程、模型训练到评估和导出的完整算法建模过程,辅助用户高效完成复杂的业务建模。机器学习框架涵盖用于分类、回归、聚类、异常检测和数据准备的各种学习方法。原创 2024-08-15 17:52:37 · 1859 阅读 · 1 评论 -
数据中台之数据开发-离线开发和实时开发
离线开发套件封装了大数据相关的技术,包括数据加工、数据分析、在线查询、即席分析等能力,同时将任务的调度、发布、运维、监控、告警等进行整合,让开发者可以直接通过浏览器访问,不再需要安装任何服务,也不用关心底层技术的实现,只需专注于业务的开发,帮助企业快速构建数据服务,赋能业务。随着数据的应用场景越来越丰富,企业对于数据价值反馈到业务中的时效性要求越来越高,很早就有人提出过一个观点:数据的价值在于数据的在线化。实时开发套件是对流计算能力的产品封装。实时计算起源于对数据加工时效性的严苛需求:数据的业务价值随着时间原创 2024-08-15 17:38:10 · 2395 阅读 · 2 评论 -
数据中台之数据开发,数据开发概述与数据计算能力的类型
数据开发是数据资产内容建设的主战场,是数据价值生产过程中的核心环节,可以支撑大批量数据的离线处理、实时处理和数据挖掘等。业务沉淀的数据就像原始的矿石或商品的原材料,数据开发这个环节就像是“商品”生产的流水线,通过这条流水线将数据转换成数据资产,让数据能根据业务的需求转换成新的形态,将原本看起来没有价值的数据变成对业务有价值的资产,为前端业务源源不断提供其所需要的“商品”。数据开发涉及的产品能力主要包括3个部分,分别是离线开发、实时开发和算法开发等内容。原创 2024-08-06 12:52:29 · 2061 阅读 · 2 评论 -
数据中台建设之数据存储
DT时代,企业的数据生产方式越来越丰富,数据量越来越大,怎么做存储技术选型成为了摆在我们面前需要解决的问题,也是我们需要提前考虑的事情;那么,我们在做技术选型时需要明确哪些问题呢?需要考虑哪些方面的问题?技术选型时需要考虑哪些场景?比如在线和离线?OLTP与OLAP?存储技术涉及哪些具体技术呢?比如分布式存储?NoSQL?关系数据库?云数据库?数据湖?以上种种问题和场景考量,都能在我的这篇文章中找到答案,来吧,我们一起来看下这篇文章!原创 2024-08-06 12:40:07 · 1528 阅读 · 0 评论 -
数据中台建设之数据汇聚与数据交换
应用哪种模式进行数据汇聚,主要依据业务应用的需要。汇聚数据模式主要分为以下两种。基于不同数据汇聚需求、硬件成本及网络带宽要求,可以选择不同的汇聚数据方法。这里的汇集方法主要有ETL、ELT两种。在数据能力建设过程中,很多企业结合自身的场景和最佳实践开源了一些优秀的汇聚工具,如Flink CDC、Canal、Sqoop、DataX等,这些工具的适用场景不同,也各有优缺点。原创 2024-07-30 14:04:59 · 3646 阅读 · 1 评论 -
数据中台建设之数据采集
线上行为的主要载体可以分为传统互联网和移动互联网两种,对应的形态有PC系统、PC网页、H5、微信小程序、App、智能可穿戴设备、物联网传感设备等。在技术上,数据采集主要有客户端埋点和服务端埋点两种方式。其中客户端埋点主要通过在终端设备内嵌入埋点功能模块,通过模块提供的能力采集客户端的用户行为,并上传回行为采集服务端。线下行为数据主要通过Wi-Fi探针、摄像头、传感器等硬件采集。随着设备的升级,各种场景中对智能设备的应用越来越多,安防、客户监测、考勤等开始深入人们的工作和生活。原创 2024-07-30 13:38:16 · 1836 阅读 · 1 评论 -
数据中台的价值框架与架构
通过前面对数据中台建设方法论体系的介绍,我们了解了数据中台的战略行动、保障条件、目标准则、建设内容和关键步骤,这一节我们将了解数据中台的总体架构、包含的功能模块、功能模块之间的关系以及运转机制。数据中台的目标是让数据持续用起来,通过数据中台提供的工具、方法和运行机制,把数据变为一种业务应用能力,让数据更方便地被业务所使用。下图所示为数据中台的总体架构图:数据中台是位于底层云基础底座与上层业务应用之间的一套体系,包括数据汇聚、数据开发、数据体系、数据资产管理、数据应用以及数据运营体系和数据安全管理。原创 2024-07-29 13:05:51 · 2000 阅读 · 1 评论 -
什么是数据中台?从哪些方面加深对数据中台的认知?需要理清些什么概念?数据中台的意义是什么?
数据中台概念自诞生以来持续保持行业热度,但是目前为止对于数据中台并没有统一、标准的定义。认为数据中台是云平台的一部分,同时包括业务中台和技术中台。认为数据中台是数据+技术+产品+组织的组合,是企业开展新型运营的一个中枢系统。认为数据中台可以理解为企业的最核心的数据大脑,是一种理念、一种思维,是一种面向未来的架构。认为数据中台是高质量、高效赋能数据前台的一系列数据系统和数据服务的组合认为数据中台是“计算平台+算法模型+智能硬件”,不仅有云端,还需要智能设备帮企业在终端收集线下数。原创 2024-07-29 12:59:47 · 14700 阅读 · 3 评论 -
统一数据建模理论
如果说数据标准化体系建设是实现数据资产化的基础,那么统一数据模型建设是实现数据资产化的最有效的关键举措。在说明统一数据模型的价值之前,先介绍目前数据资产化的一些困境。统一数据模型的主要目标是构建一套完整的面向主题的数据仓库模型,实现数据的汇聚、集成、分层和持久化,高效支持企业的各种大数据应用场景(比如,数据报表、数据查询、数据分析、数据建模等)的高质量数据需求。统一数据模型主要包含以下工作。目前,有很多成熟的方法论用于指导如何构建统一数据模型。原创 2024-07-19 16:51:00 · 2320 阅读 · 1 评论 -
Hadoop发展史和生态圈介绍
Hadoop是由Apache基金会所开发的分布式系统基础架构,旨在解决海量数据存储和计算分析问题。Hadoop HDFS(Hadoop Distributed File System):分布式文件存储系统,解决海量数据存储问题。Hadoop Yarn:集群资源管理和任务调度框架,解决资源任务调度问题。Hadoop MapReduce:分布式计算框架,解决海量数据计算问题。原创 2024-07-15 11:02:31 · 2925 阅读 · 1 评论 -
Spark 分布式弹性计算集(RDD)相关概念介绍
RDD是 Spark 中最基本的数据抽象,代表一个不可变、可分区、元素可并行计算的集合。RDD具有自动容错、位置感知性调度和可伸缩等特点。RDD 允许用户在执行多个查询时显式地将数据集缓存在内存中,后续查询能够重用该数据集,这极大地提升了查询效率。Spark 可以跨节点在内存中持久化 RDD。当持久化 RDD时,每个节点都会在内存中缓存计算后的分区数据,当其他操作需要使用该 RDD 时,可以直接重用该缓存数据,这使得之后的 RDD 计算速度更快(通常超过10倍)。缓存是选代计算和交式计算的关键。原创 2024-07-08 10:05:46 · 1297 阅读 · 1 评论 -
Apache Spark分布式计算框架架构介绍
Spark 基于 Spark Core 建立了 Spark SQL、Spark Streaming、MLlib、GraphX、SparkR 核心组件,基于不同组件可以实现不同的计算任务,这些计算任务的运行模式有:本地模式、独立模式(Standalone)、Mesos 模式、 YARN 模式。Spark 任务的计算可以从 HDFS、S3、Hypertable、HBase或Cassandra等多种数据源中存取数据。原创 2024-07-08 09:57:31 · 3090 阅读 · 1 评论 -
Apache Flink架构介绍
在Flink的整个软件架构体系中,同样遵循这分层的架构设计理念,在降低系统耦合度的同时,也为上层用户构建Flink应用提供了丰富且友好的接口。Flink整个系统主要由两个组件组成,分别为JobManager和TaskManager,Flink架构也遵循Master-Slave架构设计原则,JobManager为Master节点,TaskManager为Worker(Slave)节点。所有组件之间的通信都是借助于Akka Framework,包括任务的状态以及Checkpoint触发等信息。原创 2024-07-05 09:56:28 · 1982 阅读 · 2 评论 -
业界数据架构的演变
近年来随着越来越多的大数据技术被开源,例如:HDFS、Spark等,伴随这些技术的发展与普及,促使企业数据架构的演进——从传统的关系型数据存储架构逐步演化为分布式处理和存储的架构。我们通过数据架构的演变角度来了解下为什么今天Flink实时计算引擎会爆火起来。原创 2024-07-05 09:44:54 · 1309 阅读 · 2 评论 -
认识流式处理框架Apache Flink
Apache Flink 是一个框架和分布式处理引擎,用于在 无边界 和 有边界 数据流上进行有状态的计算。Flink 能在所有常见集群环境中运行,并能以内存速度和任意规模进行计算。近年来Apache Flink计算框架发展迅速,Flink以流处理为基础,对批数据也有很好的支持,尤其是在流计算领域相比其他大数据分布式计算引擎有着明显优势,能够针对流式数据同时 支持高吞吐、低延迟、高性能分布式处理 ,Flink在未来发展上有着令人期待的前景。原创 2024-07-02 10:34:50 · 2666 阅读 · 2 评论 -
基于Spark3.3.4版本,实现Standalone 模式高可用集群部署
在早期大数据处理中,我们会选择使用MapReduce分析处理海量数据,MapReduce存在计算慢、代码编写复杂、不支持流式计算及性能上的一些问题,Apache Spark计算框架的出现解决了MapReduce计算框架以上各种问题,Apache Spark是新一代的大数据计算框架,支持针对批量数据及流式数据进行处理,在数据处理上相对比MapReduce性能上提升很多,不仅编程方便还支持SQL处理数据、流式编程等。今天我就来带大家基于Spark3.3.4版本,实现Standalone 模式高可用集群部署。原创 2024-06-18 14:20:21 · 1807 阅读 · 2 评论 -
基于Spark3.3.4版本,实现Spark On Yarn 模式部署
企业中的海量数据都会使用大数据相关计算框架进行分析处理,在早期大数据处理中,我们会选择使用MapReduce分析处理海量数据,MapReduce存在计算慢、代码编写复杂、不支持流式计算及性能上的一些问题,Apache Spark计算框架的出现解决了MapReduce计算框架以上各种问题,Apache Spark是新一代的大数据计算框架,支持针对批量数据及流式数据进行处理,在数据处理上相对比MapReduce性能上提升很多,不仅编程方便还支持SQL处理数据、流式编程等。原创 2024-06-17 12:06:18 · 1562 阅读 · 2 评论 -
ClickHouse分布式集群部署
ClickHouse 是俄罗斯的 Yandex 于 2016 年开源的用于在线分析处理查询(OLAP :Online Analytical Processing)MPP架构的列式存储数据库(DBMS:Database Management System),能够使用 SQL 查询实时生成分析数据报告。ClickHouse的全称是Click Stream,Data WareHouse。 clickhouse可以做用户行为分析,流批一体,线性扩展和可靠性保障能够原生支持 shard + replication原创 2023-09-21 14:09:44 · 11139 阅读 · 4 评论 -
Hbase分布式集群部署
HBase 是一个构建在 Hadoop 文件系统之上的面向列的数据库管理系统。HBase 是一种类似于 Google’s Big Table 的数据模型,它是 Hadoop 生态系统的一部分,它将数据存储在 HDFS 上。今天我们就来在我们的虚拟机中实现HBase分布式集群服务部署原创 2023-09-21 11:41:56 · 9886 阅读 · 1 评论 -
Hive 的权限管理
hive自身支持三种权限管理模型,默认情况下是不开启的,这样会导致所有的用户都具有相同的权限,且默认都是超级管理员,超管对hive中的所有表都有查看和改动的权利,这样是不符合一般数据仓库的安全原则的,今天我们就来探究下Hive的权限管理原创 2023-09-21 11:01:22 · 13543 阅读 · 2 评论 -
Hive 优化建议与策略
为啥Hive需要优化? Hive的执行依赖于底层的MapReduce作业,因此对Hadoop作业的优化或者MapReduce作业的调优对于Hive 查询性能有较大提高,本问介绍了工作中经常会用到的hive相关优化技巧原创 2023-09-20 21:46:08 · 2092 阅读 · 2 评论 -
Hive 的函数介绍
hive中的函数其实与Java与MySQL中的函数概念一样,封装了一段实现某些功能的代码,今天我们来学习下Hive 相关的函数,我们自己也学着通过代码自定义UDF和UDTF函数原创 2023-09-20 18:17:40 · 10076 阅读 · 1 评论 -
Hive的分区和分桶
为了提高查询数据的效率,Hive 提供了表分区机制。分区表基于分区键把具有相同分区键的数据存储在一个目录下,在查询某一个分区的数据的时候,只需要查询相对应目录下的数据,而不会执行全表扫描,也就是说,Hive 在查询的时候会进行分区剪裁。每个表可以有一个或多个分区键。Hive 可以对每一个表或者是分区,进一步组织成桶,也就是说桶是更为细粒度的数据范围划分。Hive 是针对表的某一列进行分桶。Hive 采用对表的列值进行哈希计算,然后除以桶的个数求余的方式决定该条记录存放在哪个桶中。分桶的好处是可以获得更高的查原创 2023-09-20 15:53:33 · 10853 阅读 · 1 评论 -
Hive的基本SQL操作(DDL篇)
Hive SQL(HQL)与SQL的语法大同小异,基本上是相通的,学过SQL的使用者可以无痛使用Hive SQL。只不过在学习HQL语法的时候,特别要注意Hive自己特有的语法知识点,今天我们就来学习下Hive SQL的DDL语句原创 2023-09-20 15:19:47 · 12407 阅读 · 3 评论 -
一篇文章教会你搭建Hive分布式集群
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。在大数据技术生态体系中扮演着重要的角色,今天我们就通过一篇文章来教会你如何搭建部署Hive分布式集群。原创 2023-09-20 14:23:57 · 13397 阅读 · 2 评论 -
一篇文章带你学会Hadoop-3.3.4集群部署
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。在进行自学的时候,我们都需要自己搭建一个稳定的hadoop集群,但是hadoop的集群部署还是比较麻烦的,今天我就带你通过我的一篇文章,学会部署hadoop集群。原创 2023-09-19 21:58:15 · 12033 阅读 · 2 评论 -
Hive 数据仓库介绍
hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。原创 2023-09-19 22:29:07 · 12344 阅读 · 2 评论 -
MapReduce介绍
MapReduce是一个用于大规模数据处理的分布式计算模型,最初由Google工程师设计并实现的,Google已经将完整的MapReduce论文公开发布了。其中的定义是,MapReduce是一个编程模型,是一个用于处理和生成大规模数据集的相关的实现。用户定义一个map函数来处理一个Key-Value对以生成一批中间的Key-Value对,再定义一个reduce函数将所有这些中间的有相同Key的Value合并起来。很多现实世界中的任务都可用这个模型来表达。原创 2023-08-17 18:42:10 · 28094 阅读 · 2 评论 -
YARN框架和其工作原理流程介绍
Apache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。原创 2023-08-14 17:50:19 · 22069 阅读 · 3 评论
分享