- 博客(24)
- 资源 (2)
- 收藏
- 关注
原创 CDH安装教程-第一步:服务器配置
CDH安装包申请链接http://bemoredata2020.mikecrm.com/Q5ysA6c。视频内容为第一步,服务器配置部分。后续步骤查看后续视频。CDH安装教程,总共5步。视频以CDH6.3.2为例。1-cdh6.3.2 --服务器配置。
2024-07-12 15:56:34
164
原创 Cloudera最新认证体系-2024Hadoop认证
你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客:撤销:Ctrl/Command + Z重做:Ctrl/Command + Y加粗:Ctrl/Command + B斜体:Ctrl/Command + I标题:Ctrl/Command + S
2024-04-23 11:22:43
916
原创 Spark RDD碎片知识点9
提及了Python中创建RDD的示例代码,以及如何在Python中使用take方法和collection方法来获取RDD中的元素。提及了take方法和collection方法返回的是数组(Scala)或列表(Python),具体取决于使用的编程语言。详细介绍了如何通过文件创建RDD,并且探讨了Scala和Python中的语法细节以及RDD对象的方法。使用Scala创建RDD的示例代码,包括了如何在Scala中声明不可变变量和可变变量。介绍了在textFile方法中可以传递多个路径,包括目录和通配符。
2024-04-10 15:36:17
329
2
原创 国内部分云厂商同一产品价格对比:阿里/华为/腾讯/天翼/Ucloud
选哪个厂商看具体需求,确定好产品后多看几家厂商总归没错。每个厂商的产品各有侧重,如果没什么要求,多对比几家厂商的产品,现在各厂商都很卷。
2024-04-10 15:32:59
505
1
原创 CDP2001考试代报名(无需培训记录)
考试简介:该考试考察系统管理员是否具备管理和维护Cloudera数据平台-私有云基础所需的技能和知识。考试名称:CDP Administrator - Private Cloud Base Exam。对应的上一版本的认证:CCA Administrator Exam (CCA131)通过分数:未公布,考生应尽量取得高分。考试编号:CDP2001。
2023-09-28 13:17:30
196
原创 CDH6.3.2安装包申请链接及组件版本
cdh6.3.2组件名称 版本Supervisord 3Cloudera Manager Agent 6.3.1Cloudera Manager Management Daemon 6.3.1Flume NG 1.9.0+cdh6.3.2Hadoop 3.0.0+cdh6.3.2HDFS 3.0.0+cdh6.3.2HttpFS 3.0.0+cdh6.3.2hadoop-kms 3.0.0+cdh6.3.2MapReduce 2 3.0.0+cdh6.3.2YARN 3.0.0+cdh6
2022-03-10 15:11:27
3146
原创 数据治理CDGA/CDGP/CDMP和DAMA的关系
协会情况DAMA是一个全球性的非营利性机构,由数据管理和相关的专业人士组成,厂商中立。协会自1980年成立以来,一直致力于数据管理和数字化的研究、实践及相关知识体系的建设,先后发行了《DAMA 数据管理字典》和《DAMA 数据管理的知识体系》等。该知识体系目前已被广泛使用,并已成为业界的标杆和权威。DAMA开发的“数据管理专业人士认证”,该证书国际通用,行业认可,是数据管理领域最专业的职业认证之一。证书价值数据治理师以《DAMA-数据管理知识体系指南》为主要认证内容,辅助个人提交其他工作经验及资料证
2021-09-07 10:56:37
2064
原创 CDH技术向视频:PaaS、flink、kafka、Workload XM、Cloudera Machine Learning
CDP私有云上面的PaaS服务,也即是容器化的数据体验服务,一共有五类PaaS服务:CDW、CDE、CML、CDF、COD。本视频主要展示CDW和CML两类服务。CDW封装了Hive LLAP和Impala服务,这些服务运行在K8S之上,让你可以快速部署计算集群、动态增加节点或者缩减节点。CML封装了CDSW服务,也是运行在K8S之上。与CDSW不同的是,CML不再只是Spark客户端,而是独立管理Spark服务,不需要连接外部CDH/HDP集群。CML既可以实现不同用户之间的资源隔离,也可以实现多个团
2020-10-16 16:47:37
436
原创 那些在CDH5中是bug,到了CDH6版本就修复了的问题
盘点那些在CDH5中是bug,到了CDH6版本就修复了的问题。涉及到Hadoop、HDFS、YARN、HBASE、hive、hue、impala、kudu、oozie、solr、spark、kafka、parquet、zookeeper等组件。如果你的集群问题是被列出的这些,那么升级是可以解决问题的。列出的只是部分的一百多个问题,Cloudera今年年底会停止CDH5的支持,对于CDH5的用户来说,升级是大势所趋。问题 问题描述HADOOP-12267 s3a failure due to int
2020-09-27 15:51:11
861
原创 Cloudera Navigator介绍
Cloudera Navigator是CDH企业版的工具之一,定位为一个数据管理工具。Hadoop大数据平台拥有存储与分析任何种类和规模数据的能力,并且将其开放给更多用户和分析工具。 但是,这同时也带来数据管理上的挑战:大量的业务用户想自助访问可发掘数据;管理员需要知道数据是怎么被用来优化分析性能的;安全团队需要看见数据的访问方式以及它们是怎么满足合规性的。一个大数据平台必须有能力在整个企业内解决数据管理以及合规性需求,但同时不能牺牲大数据本身的灵活性和优势。所以我们需要数据管理工具Navigator。1
2020-07-22 11:00:11
1557
原创 Cloudera的Hadoop发行版CDH5和CDH6各个版本停止支持的时间
停止支持的意思是不再更新和修复bug,厂商不再向这个版本的用户提供技术支持。CDH5到今年年底全部停止支持。
2020-07-07 10:56:16
2597
原创 基于Kafka的实时计算引擎:Flink能否替代Spark?
根据 IBM 的统计报告显示,过去两年内,当今世界上90%的数据产生源于新设备、传感器以及技术的出现,数据增长率也会为此加速。而从技术上将,这意味着大数据领域,处理这些数据将变得更加复杂和具有挑战性。例如移动应用广告、欺诈检测、出租车预订、患者监控等场景处理时,需要对实时数据进行实时处理,以便做出快速可行的决策。目前业界有开源不少实时计算引擎,以 Apache 基金会的两款开源实时计算引擎最受欢迎,它们分别是 Apache Spark 和 Apache Flink 。接下来,我们来聊一聊它们的使用场景、优
2020-06-19 15:25:11
1290
原创 关于Ozone、Ranger、Flink、Kudu、Kubernetes、Impala的6个视频
Apache Ozone旨在解决HDFS对于小文件和文件系统对象总数的规模限制。在当前的数据中心硬件上,HDFS的限制约为3.5亿个文件和7亿个文件系统对象。Ozone的体系结构解决了这些限制。它采用对象存储的设计架构,支持扩展到上百亿的数据对象。(https://mp.weixin.qq.com/s/idhpGcWj5XTZkrVc_eoGJg)Ranger是 Hadoop 之上的统一安全框架,它支持Hadoop生态圈几乎所有组件的授权,审计,数据加密以及安全管理。通过Ranger的可视化界面,管理员可
2020-05-15 14:10:00
681
原创 原HDP及CDH平台到达CDP的三条线路
迁移到公有云(初期投资少)将数据和元数据复制到公共云; 在CDP公共云上实施新的工作负载或迁移现有的工作负载创建新的公共云环境,复制数据并逐步移动工作负载最适合:新的数据和工作负载云就绪的数据弹性工作负载小型集群,运营开销高过程:设置公共云环境→注册经典集群→识别候选的工作负载→使用Replication Manager迁移工作负载数据和元数据(“突发到云”)→测试并推广到生产迁移到CDP DC(较高的初始投资)在本地构建新的CDP数据中心集群; 从现有的经典集群中复制数据和元数据;并迁移
2020-05-13 13:52:29
2587
原创 CDH5到CDH6都更新了些什么?
发现最近很多人关注CDH版本更新的问题,CDH6更新有一年多的时间了,2019年2月19日,迭代的版本为CDH6.1.1,现在CDH最新的版本已经到CDH6.3.3了。为了方便比较,本文内容主要基于CDH5.16.1和CDH6.1.1进行说明。CDH6是基于Hadoop3同时包含大量其他组件的大版本更新的发布版本,许多用户考虑到未来CDH的版本主要是基于CDH6,而CDH5会慢慢的停止更新,所以考...
2020-03-26 15:24:34
1356
原创 一张图告诉你为什么要选择第三方的Hadoop版本
其实开源版最大的问题是你用着用着出现了很多问题,但是这些问题没有前人解决过。第三方发行版的好处在于运维成本低,你不需要再去踩一遍坑,人家已经把坑填上了。Cloudera和Hortonworks都是基于Apache协议,100%开源;相较于原生的hadoop在兼容性、安全型以及稳定性方面有所提升;版本管理清晰,更新更快;提供了部署、安装、配置工具,大大提高了集群部署的效率,可以在几个小时内部署好集群...
2020-03-26 15:21:34
538
原创 如何优雅地分辨适合自己的Hadoop认证
说起国际的Hadoop认证必须提Hadoop商业化的三家马车:Hortonwork、Cloudera和MapR。Hortonwork、Cloudera合并之后由于版本的不同目前的考试认证还是分离的,如果你目前需要一个大数据方面的认证,那真的可以了解一下Cloudera。Cloudera总共4门认证,三门CCA,分别为CCA131、CCA159、CCA175;一门CCP DE。这四门认证是没有等级...
2020-02-17 16:15:34
578
原创 在Apache Spark中使用UDF
用户自定义函数(UDF)是大多数SQL环境的一个关键特性,其主要用于扩展系统的内置功能。UDF允许开发人员通过抽象其低级语言实现在更高级语言(如SQL)中应用的新函数。Apache Spark也不例外,其为UDF与Spark SQL工作流集成提供了各种选项。在本篇博文中,我们将回顾Python、Java和Scala上的Apache Spark UDF和UDAF(用户自定义的聚合函数)实现的简单示...
2019-06-14 10:35:19
937
原创 在ZooKeeper组件上停用JMX agent之后,如何允许cm继续监控ZooKeeper的运行状态
摘要In TSB 2019-310 the workaround we asked users to do was to disable Zookeeper monitoring. However turning off the monitoring of Zookeeper service can be risky. This article explain the workaround wh...
2019-06-05 11:53:02
388
原创 Cloudera Hadoop考试相关问题
如何报考Cloudera的考试?两种途径:1、自行在官网报名(官网网址www.cloudera.com)2、找一个代理商帮你报名考试资格有效期为报名之日起365天内,你需要在有效期内完成考试,逾期作废。我可以在任意地点参加Cloudera的在线考试吗?可以。保证有独立安静的空间与良好的网络环境即可。考试环境:上机考试,考试时长120分钟,8~12道操作题,是个虚拟的CDH集群,考生需要按考...
2019-06-04 10:21:11
1201
原创 Cloudera Manager和CDH升级流程
1.Cloudera升级概述升级包括两个主要的步骤,升级Cloudera Manager和升级CDH群集升级CM:*升级CM时 可以使用rpm命令; Cloudera Manager升级时,Cloudera Navigator也会升级。升级CDH:*CM和CDH不需要同时升级,但CM和CDH的版本必须兼容。Cloudera Manager 6.0可以管理运行CDH 5.7到CDH 5...
2019-06-03 15:35:20
1837
原创 CDH初期集群构建方案
未完成@TOC欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客:全新的界面设计 ,将会...
2019-03-12 16:09:22
723
Cloudera最新认证体系2024.docx
2024-04-23
Apache Kudu用户指导手册.pdf
2019-06-05
CDH5与CDH6对比.pdf
2020-07-30
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人