
hadoop
文章平均质量分 89
精通代码大仙
免费高效学习Python,AI,全栈编程技术!关注我带你免费学习成长!
展开
-
【原创】大数据治理入门(17)《数据治理度量与评估:度量与指标》入门必看 高赞实用
数据治理度量与评估不仅是项目实施过程中的重要环节,更是数据治理长期运行的重要保障。通过科学的度量与评估指标,企业可以持续监控数据治理的效果,及时发现和解决问题,优化数据治理流程,提高数据的总体质量和安全性。本文详细介绍了数据治理的常用度量与指标、评估方法、推荐工具以及成功案例,希望能够为企业在数据治理度量与评估方面提供有价值的参考。原创 2025-01-21 11:01:36 · 861 阅读 · 0 评论 -
【原创】大数据治理入门(15)《选择合适的工具:大数据治理工具推荐》入门必看 高赞实用
大数据治理工具的选择对企业的数据治理效果至关重要。通过明确需求、评估工具、试点测试和技术支持,企业可以选到最适合的工具,从而有效提升数据治理的效率和效果。本文详细介绍了主流的大数据治理工具及其特点,提供了选型指南和成功案例,希望能够为企业在选择大数据治理工具时提供有价值的参考。原创 2025-01-21 11:00:11 · 832 阅读 · 0 评论 -
【原创】大数据治理入门(16)《大数据治理项目实施:步骤与最佳实践》入门必看 高赞实用
大数据治理是一项系统性工程,旨在通过规范化的管理和技术手段,确保企业数据的质量、安全、透明性和合规性。良好的大数据治理能够帮助企业更好地利用数据,支持业务决策和创新。本文将详细介绍大数据治理项目的实施步骤、关键成功因素、常见挑战和成功案例,为企业提供一个全面的指南。大数据治理项目的成功实施需要经过明确的需求分析、科学的方案设计、高效的项目实施和严格的效果评估。高层领导的支持、团队的协作和技术选型是关键成功因素。原创 2025-01-21 11:00:35 · 944 阅读 · 0 评论 -
【原创】大数据治理入门(14)《数据治理角色与职责》入门必看 高赞实用
数据治理团队是企业实现数据治理目标的重要保障。通过明确各个角色的职责,制定和执行数据治理政策,企业可以确保数据的质量、安全和透明度。团队的高效协作和使用适当的工具,是实现数据治理成功的关键。本文详细介绍了数据治理团队的组织结构和各个角色的具体职责,以及成功案例,希望能够为企业构建和管理数据治理团队提供有价值的参考。原创 2025-01-19 07:00:00 · 788 阅读 · 0 评论 -
【原创】大数据治理入门(13)《数据血缘追踪:确保数据的透明与可追溯》入门必看 高赞实用
数据血缘管理是大数据治理中的重要组成部分。通过数据透明、责任划分和问题追踪,企业可以确保数据的质量和可信度,提高数据管理和利用的效率。数据血缘图的构建和自动化工具的使用,是实现数据血缘管理的有效手段。本文详细介绍了数据血缘管理的意义、实现方法和成功案例,希望能够帮助企业更好地应用数据血缘追踪技术,实现数据的透明与可追溯。原创 2025-01-18 18:00:00 · 619 阅读 · 0 评论 -
【原创】大数据治理入门(12)《数据分类与标签:提升数据管理效率》入门必看 高赞实用
数据分类与标签管理是提升企业数据管理效率的重要手段。通过合理分类和标签管理,企业可以快速找到所需数据,确保数据的安全性和合规性,提高数据的利用价值。长期来看,数据分类与标签管理不仅能够提升业务效率,还能支持业务创新和优化决策,实现企业的可持续发展。希望本文能够为您提供实用的数据分类与标签管理指南,帮助企业更好地管理和利用数据。原创 2025-01-18 11:45:00 · 814 阅读 · 0 评论 -
【原创】大数据治理入门(11)《数据共享与交换:实现高效协作》入门必看 高赞实用
数据共享与交换是企业实现高效协作的重要手段,通过 API 接口、数据交换平台和数据湖等技术,企业可以整合内部和外部的数据资源,提升业务效率和市场竞争力。然而,数据共享与交换也面临一些挑战,如数据安全、数据质量、法律法规合规等。企业需要建立全面的数据治理机制,确保数据共享与交换的安全性和合规性。同时,数据共享与交换的机遇也非常明显,可以促进业务创新、优化决策和支持可持续发展。希望本文能够为您提供实用的数据共享与交换指南,帮助企业更好地实现数据的价值。原创 2025-01-18 06:00:00 · 1047 阅读 · 0 评论 -
【原创】大数据治理入门(10)《数据资产化:从数据到价值》入门必看 高赞实用
数据资产化是企业大数据治理的重要组成部分,通过数据收集、数据整理、数据评估和数据应用,企业可以将数据转化为有价值的资产,实现业务决策优化、收入增长和客户满意度提升。数据资产化的核心价值在于提升企业的数据利用效率,支持企业的可持续发展。希望本文能够为您提供实用的数据资产化指南,帮助企业更好地实现数据的商业价值。原创 2025-01-17 17:00:00 · 515 阅读 · 0 评论 -
【原创】大数据治理入门(9)《数据审计:大数据治理中的风险防线》入门必看 高赞实用
数据审计(Data Audit)是指对企业数据的采集、存储、处理、使用和安全等方面进行全面检查,以确保数据的质量、一致性和合规性。在大数据治理中,数据审计是不可或缺的一环,它有助于企业发现和解决数据管理中的问题,提升数据治理的整体效果。本文将详细介绍数据审计的定义、审计流程、合规性检查以及企业实践案例,帮助读者更好地理解和应用数据审计技术。数据审计和合规性检查是企业数据治理的重要环节。原创 2025-01-17 12:00:00 · 1291 阅读 · 0 评论 -
【原创】大数据治理入门(8)《制定数据策略:企业数据治理的基石》入门必看 高赞实用
数据策略(Data Strategy)是指企业在数据治理中制定的一套指导方针和行动计划,旨在确保数据的有效利用、管理和保护。在大数据时代,数据已成为企业的核心资产,制定一套科学合理的数据策略是企业实现数据价值、提升竞争力的关键。本文将详细介绍数据策略的定义、制定步骤、关键要素,并分享知名企业的成功案例,帮助读者更好地理解和应用数据策略。制定和执行数据策略是企业实现数据治理的核心步骤。通过全面的数据现状分析、明确的目标设定和科学的策略制定,企业可以确保数据的有效利用、管理和保护。原创 2025-01-17 07:00:00 · 798 阅读 · 0 评论 -
【原创】大数据治理入门(7)《提升数据质量:质量评估与改进策略》入门必看 高赞实用
数据治理框架(Data Governance Framework)是指一套结构化的方法和工具,用于确保数据的质量、一致性和安全性。随着大数据的普及,数据治理已经成为企业数字化转型的重要组成部分。本文将详细介绍数据治理框架的定义、主流框架、实施步骤以及成功案例,帮助读者更好地理解和应用数据治理框架。数据治理框架的选择应根据企业的具体需求和现状进行。DAMA-DMBOK 和 ISO 8000 是目前常用的两个主流框架,分别在数据管理和数据质量方面提供了全面的指导。原创 2025-01-16 17:45:00 · 601 阅读 · 0 评论 -
【原创】大数据治理入门(6)《数据标准与元数据管理:构建大数据治理的基石》入门必看 高赞实用
定义:元数据(Metadata)是指描述数据的数据,它提供了关于数据的内容、质量、条件和管理等信息。元数据可以帮助企业更好地理解和利用其数据资源。类型描述性元数据(Descriptive Metadata):描述数据的内容,如文件名、创建时间、作者等。结构化元数据(Structural Metadata):描述数据的组织结构,如数据库表结构、文件格式等。管理性元数据(Administrative Metadata):描述数据的管理和技术信息,如访问权限、存储位置等。作用数据发现。原创 2025-01-16 11:30:00 · 1065 阅读 · 0 评论 -
【原创】大数据治理入门(5)《数据生命周期管理:从采集到归档》入门必看 高赞实用
数据采集定义:数据采集是指从各种来源获取数据的过程,这些来源包括传感器、日志文件、用户行为数据等。方法日志采集:通过日志系统如 Flume 或 Logstash 采集日志数据。API 采集:通过 REST API 或其他接口从外部系统获取数据。Web 爬虫:使用 Scrapy 或 Beautiful Soup 等工具从网页上抓取数据。注意事项数据源验证:确保数据源的可靠性和合法性。数据格式统一:在采集过程中,确保数据格式的一致性,减少后续处理的复杂性。数据存储定义。原创 2025-01-16 06:15:00 · 2703 阅读 · 0 评论 -
【原创】大数据治理入门(4)《保护数据隐私:大数据治理的最佳实践》入门必看 高赞实用
在大数据治理中,保护数据隐私是至关重要的。通过了解和遵守相关法规,采用数据脱敏、匿名化和隐私计算等技术手段,企业可以有效降低数据隐私泄露的风险,提升用户的信任度和企业的竞争力。希望本文能够为您提供全面的数据隐私保护指南。原创 2025-01-15 19:00:00 · 798 阅读 · 0 评论 -
【原创】大数据治理入门(3)《守护数据安全:大数据治理中的安全策略》入门必看 高赞实用
定义:Apache Ranger 是一个开源的数据安全治理工具,提供细粒度的权限管理和访问控制功能。功能权限管理:支持多种数据源的统一权限管理。审计日志:记录详细的访问日志,便于追踪和审计。策略管理:通过策略管理,实现数据的分类和分级保护。定义:Cloudera Navigator 是 Cloudera 提供的数据安全治理工具,集成了数据治理、审计和合规等功能。功能数据治理:提供数据分类、元数据管理等功能。审计:记录详细的访问日志,支持多种审计报告。合规性。原创 2025-01-15 14:14:23 · 566 阅读 · 0 评论 -
【原创】大数据治理入门(2)《提升数据质量:质量评估与改进策略》入门必看 高赞实用
提升数据质量是一个持续的过程,需要企业在数据采集、处理、存储和使用等各个环节建立严格的质量控制体系。通过数据清洗、数据校验和数据标准化等方法,企业可以显著提高数据的质量,从而更好地支持业务决策和运营优化。希望本文能够帮助您了解数据质量评估和改进策略的基本概念及其重要性。原创 2025-01-15 14:08:26 · 1100 阅读 · 0 评论 -
【原创】大数据治理入门(1)《大数据治理入门:为什么重要?》入门必看 高赞实用
随着互联网的快速发展,数据的生成和积累速度达到了前所未有的水平。大数据通常被定义为规模巨大、类型多样且生成速度快的数据集合。这些数据不仅包括结构化数据(如数据库中的表格数据),还包括非结构化数据(如文本、图片、视频等)。大数据的重要性在于其能够帮助企业更好地理解市场趋势、客户行为、运营效率,从而做出更加明智的决策。市场洞察:通过分析社交媒体、用户评论等数据,企业可以实时了解市场动态和消费者需求。运营优化:大数据可以帮助企业优化供应链、提高生产效率、降低运营成本。产品改进。原创 2025-01-15 13:59:38 · 911 阅读 · 0 评论 -
【亲测有效】hadoop hive1,hive2 索引加速查询 hive sql优化 大幅优化查询速度 索引建立
【亲测有效】hadoop hive1,hive2 索引加速查询 hive sql优化 大幅优化查询速度 索引建立原创 2022-06-23 11:06:51 · 633 阅读 · 0 评论 -
【亲测有效】hive sql DML语句优化思路 hive表查询优化 优化你的hive任务,all you need,持续更新中
【亲测有效】hive sql DML语句优化思路 hive表查询优化 优化你的hive任务,all you need,持续更新中原创 2022-06-20 13:11:48 · 280 阅读 · 1 评论 -
【亲测有效】hive最全常用配置参数,加速,优化你的hive任务,all you need,持续更新中
【亲测有效】hive最全常用配置参数,加速,优化你的hive任务,all you need原创 2022-06-20 11:52:07 · 2773 阅读 · 0 评论 -
Alluxio-基于内存的虚拟分布式存储系统
什么是AlluxioAlluxio 是世界上第一个虚拟的分布式存储系统,它为计算框架和存储系统构建了桥梁,使计算框架能够通过一个公共接口连接到多个独立的存储系统,使计算与存储隔离。 Alluxio 是内存为中心的架构,以内存速度统一了数据访问速度,使得数据的访问速度能比现有方案快几个数量级,为大数据软件栈带来了显著的性能提升在大数据生态系统中,Alluxio 位于数据驱动框架或应用(如 Apache Spark、Presto、Tensorflow、Apache HBase、Apache H..原创 2022-02-27 21:17:16 · 3652 阅读 · 1 评论 -
Flink 消费 Kafka 数据实时落Apache doris数据仓库(KFD)
1.概述Apache Doris(原百度 Palo)是一款基于大规模并行处理技术的分布式 SQL 数据仓库,由百度在 2017 年开源,2018 年 8 月进入 Apache 孵化器。Apache Doris是一个现代化的MPP分析型数据库产品。仅需亚秒级响应时间即可获得查询结果,有效地支持实时数据分析。Apache Doris的分布式架构非常简洁,易于运维,并且可以支持10PB以上的超大数据集。Apache Doris可以满足多种数据分析需求,例如固定历史报表,实时数据分析,交互式数据分析和探原创 2022-02-27 20:53:40 · 2686 阅读 · 0 评论 -
使用 Flink CDC 实现 MySQL 数据实时入 Apache Doris
Apache Doris 代码仓库地址:apache/incubator-doris 欢迎大家关注加星本文通过实例来演示怎么通过Flink CDC 结合Doris的Flink Connector实现从Mysql数据库中监听数据并实时入库到Doris数仓对应的表中。1.什么是CDCCDC 是变更数据捕获(Change Data Capture)技术的缩写,它可以将源数据库(Source)的增量变动记录,同步到一个或多个数据目的(Sink)。在同步过程中,还可以对数据进行一定的处理,例如分组(GRO原创 2022-02-27 20:53:09 · 2599 阅读 · 0 评论 -
【CDH实战02】基于CentOS7的CDH6.3.2完全分布式集群搭建【下】
写在前面上一篇,我们从零开始搭建好了ClouderaManager的安装环境。接下来,我们开始安装大数据生态组件,并对CDH的一些告警进行调试。一、创建集群并安装HDFS服务安装步骤: 选择功能授权版本 ->> 创建集群 ->> 为集群添加服务1. 版本选择1.1 使用默认用户名密码登录CM用户名:admin密码:admin1.2 登录成功来到环境界面-继续1.3 接受许可条款-继续1.4 根据需要选择版本-继续我们这里原创 2022-02-27 20:46:29 · 1294 阅读 · 0 评论 -
【CDH实战01】基于CentOS7的CDH6.3.2完全分布式集群搭建【上】
写在前面距离上一次写cdh集群搭建的文档已经一年多,今年2月份开始Cloudera全面下架了免费的安装包下载渠道,很多朋友在集群搭建的过程中按照之前的老文档遇到了一些问题。今天重新整理一次文档。 Cloudera官网公告 未订阅授权的用户无法使用CDH6.3.3和之后的版本 所以我们继续使用CDH6.3.2版本进行集群搭建 需要使用的朋友可以先浏览CDH6.3.2对应的组件版本是否符合需求 组件 版本 发行版 CDH 版本 Flu原创 2022-02-27 20:21:33 · 839 阅读 · 0 评论 -
【技术调研】安装CM 6.3.1和CDH 6.3.2
操作系统要求在安装CDH之前,我们来看看平台对系统有什么样的要求。通过官方文档,我们可以看到有5个方面的要求:软件依赖 CDH和CM支持的依赖 文件系统要求 nproc配置 Kudu所要求的nscd软件依赖Python操作系统带的Python是支持的(Hue和Spark会有一点问题),但Python 3.0或者更高版本是不兼容的。CDH 6要求OS需要Python 2.7或者更高的版本,而Spark 2需要Python 2.7或者更高版本的支持,但Spark 3只支持Python转载 2022-02-27 20:20:31 · 1252 阅读 · 1 评论 -
【技术调研】通过Apache Hudi和Alluxio建设高性能数据湖
T3出行的杨华和张永旭描述了他们数据湖架构的发展。该架构使用了众多开源技术,包括Apache Hudi和Alluxio。在本文中,您将看到我们如何使用Hudi和Alluxio将数据摄取时间缩短一半。此外,数据分析人员如何使用Presto、Hudi和Alluxio让查询速度提高了10倍。我们基于数据编排为数据管道的多个阶段(包括提取和分析)构建了数据湖。1.T3出行数据湖总览T3出行当前还处于业务扩张期,在构建数据湖之前不同的业务线,会选择不同的存储系统、传输工具以及处理框架,从而出现了严重的数据孤岛原创 2022-02-27 20:16:04 · 286 阅读 · 0 评论 -
【技术调研】Apache CarbonData、Hudi及Open Delta的对比研究
背景我们已经看到,人们更热衷于高效可靠的解决方案,拥有为数据湖提供应对突变和事务处理的能力。在数据湖中,用户基于一组数据生成报告是非常常见的。随着各种类型的数据汇入数据湖,数据的状态不会一层不变。需要改变各种数据的用例包括随时间变化的时序数据、延迟到达的时延数据、平衡实时可用性和回填、状态变化的数据(如CDC)、数据快照、数据清理等,在生成报告时,这些都将被写入/更新在同一组表。由于Hadoop分布式文件系统(HDFS)和对象存储类似于文件系统,因此它们不是为提供事务...原创 2022-02-27 20:13:17 · 208 阅读 · 0 评论 -
Flink on Yarn 原理剖析及实践
Flink 架构概览Flink 架构概览–Job用户通过 DataStream API、DataSet API、SQL 和 Table API 编写 Flink 任务,它会生成一个JobGraph。JobGraph 是由 source、map()、keyBy()/window()/apply() 和 Sink 等算子组成的。当 JobGraph 提交给 Flink 集群后,能够以 Local、Standalone、Yarn 和 Kubernetes 四种模式运行。Fl原创 2022-02-22 21:40:32 · 281 阅读 · 0 评论 -
对比MySQL,一文看透HBase的能力及使用场景
简介:MySQL + HBase 是我们日常应用中常用的两个数据库,分别解决应用的在线事务问题和大数据场景的海量存储问题。 本文内容适合初次理解HBase的读者,包括技术、功能及场景,也欢迎老司机们补充和温故。 更多内容,请查看PPTMySQL + HBase 是我们日常应用中常用的两个数据库,分别解决应用的在线事务问题和大数据场景的海量存储问题。本文内容适合初次理解HBase的读者,包括技术、功能及场景,也欢迎老司机们补充和温故。...原创 2021-03-04 15:28:33 · 178 阅读 · 1 评论 -
【配置CDH和管理服务】关闭DataNode前HDFS的调优
配置CDH和管理服务关闭DataNode前HDFS的调优角色要求:配置员、集群管理员、完全管理员 当一个DataNode关闭,NameNode确保每一个DataNode中的每一个块根据复制系数(the replication factor)跨集群仍然是可用的。这个过程涉及到DataNode间小批次的块复制。在这种情况下,一个DataNode有成千上万个块,关闭后集群转载 2015-06-13 13:55:48 · 2932 阅读 · 0 评论