
大数据
文章平均质量分 90
留不住斜阳
这世上到处是好酒好景,却没有一条好走的江湖路!!!
展开
-
第五章 Yarn资源调度器
Yarn资源调度器简介原创 2022-06-16 16:23:46 · 608 阅读 · 1 评论 -
第四章 Hadoop数据压缩
hadoop压缩原创 2022-06-16 15:02:29 · 702 阅读 · 0 评论 -
第三章 MapReduce框架原理
MapReduce框架原理原创 2022-06-14 15:35:25 · 1528 阅读 · 0 评论 -
第一章 MapReduce概述
MapReduce概述原创 2022-06-10 15:31:33 · 377 阅读 · 0 评论 -
第8章 HDFS HA高可用
HDFS HA高可用原创 2022-06-09 17:42:15 · 441 阅读 · 0 评论 -
第7章 HDFS 2.X新特性
HDFS新特性原创 2022-06-07 15:44:55 · 339 阅读 · 0 评论 -
第6章 DataNode
HDFS DataNode工作机制原创 2022-06-02 17:53:25 · 585 阅读 · 0 评论 -
第5章 NameNode和SecondaryNameNode
NameNode和SecondaryNameNode工作机制详解原创 2022-06-02 10:24:32 · 1108 阅读 · 0 评论 -
第4章 HDFS读写数据流
HDFS 读写数据流程原创 2022-06-01 16:46:05 · 140 阅读 · 0 评论 -
第3章 HDFS客户端操作
HDFS客户端操作原创 2022-06-01 16:17:37 · 414 阅读 · 0 评论 -
第2章 HFDS的Shell操作
HDFS Shell命令原创 2022-06-01 16:04:31 · 281 阅读 · 0 评论 -
第1章 HDFS概述
HDFS概述,适用场景原创 2022-06-01 15:23:02 · 341 阅读 · 0 评论 -
第9章 Kafka其它知识点
kafka其它知识点原创 2022-05-31 21:48:10 · 171 阅读 · 0 评论 -
第8章 KafkaConsumer重置offset
KafkaConsumer重置offset原创 2022-05-31 21:20:43 · 2344 阅读 · 1 评论 -
第7章 __consumer_offsets topic
kafka __consumer_offsets topic原创 2022-05-31 21:05:08 · 469 阅读 · 0 评论 -
第6章 Rebalance详解
kafka rebalance详解原创 2022-05-31 20:49:11 · 3266 阅读 · 0 评论 -
第5章 消费者组详解
kafka消费者组详解原创 2022-05-31 17:42:12 · 758 阅读 · 0 评论 -
第4章 Kafka工作机制详解
kafka工作机制详解原创 2022-05-31 17:26:08 · 744 阅读 · 0 评论 -
第3章 Kafka API
kafka生产者和消费者API原创 2022-05-31 16:03:07 · 216 阅读 · 0 评论 -
第二章 Kafka架构原理
kafka架构原理与核心知识原创 2022-05-30 10:02:13 · 1041 阅读 · 0 评论 -
第一章 概论和综述
1.1 消息系统消息系统是将数据从一个应用传输到另一个应用中,使应用可以专注于数据内容,不必关心传输问题。常见消息系统有点对点消息系统、发布-订阅消息系统。点对点模式(一对一,消费者主动拉取数据,消息收到后清除消息),点对点模型通常是一个基于拉取或者轮询的消息传送模型,这种模型从队列中请求信息,而不是将消息推送到客户端。这个模型的特点是发送到队列的消息只能被一个接收者处理,即使有多个消息监听者也是如此。发布/订阅模式(一对多,数据生产后,推送给所有订阅者)发布订阅模型则是一个基于推送的消息传送模原创 2022-05-27 17:17:51 · 177 阅读 · 0 评论 -
Cloudera Manager 5.14.X 安装部署(下)
后续操作可登录WEB界面进行操作,由于比较简单,有时间再更新;原创 2020-09-04 17:14:35 · 114 阅读 · 0 评论 -
Cloudera Manager 5.14.X 安装部署(中)
安装Server和Agent方式一(path A installer-采用嵌入式PostgreSQL数据库)前置条件:(CM集群每个节点都要实现) 1)修改系统文件句柄数; 2)修改swap交换区空间; 3)禁用hugepage透明大页; 4)关闭防火墙和selinux; 5)修改主机名和映射文件; 6)实现免秘钥登录; 7)搭建共享源; 8)配置好ntp时间同步服务; 9)安装JDK;1. 安装CM Agent原创 2020-09-04 16:50:36 · 548 阅读 · 0 评论 -
Cloudera Manager 5.14.X 安装部署(上)
1. 安装部署CM注意事项服务器的IP地址为静态IP;系统根目录至少50G;主机名建议统一小写;python版本为2.7.X;使用root用户安装,或者具有sudo权限的其他用户。所需软件列表软件名称版本CentOS7.4或7.5Cloudera Manager5.15.XCDH5.15.X(与上面版本同步)JDK1.8.XMYSQL数据库5.7.16MYSQL的JDBC驱动5.1.46Python2.7.X注意:原创 2020-09-04 16:28:29 · 251 阅读 · 0 评论 -
livy安装与部署
livy安装部署有两种方式:直接下载Apache社区编译好的zip包安装部署,或者下载源码进行编译安装;本文采用Apache社区编译好的zip进行安装部署。前提: 已经安装部署好CDH集群,版本为5.14.0将livy安装包解压到/opt/cloudera目录下[root@cdh001 ~]# ls /opt/cloudera/apache-livy-0.7.0-incubating-bin csd parcel-cache parcel-repo parcels创建livy用户、原创 2020-08-16 16:34:33 · 3231 阅读 · 0 评论 -
CDH5.14.0集群安装Anaconda2
需求: 在CDH5.14.0集群部署Anaconda2下载Anaconda2的parcel包https://repo.continuum.io/pkgs/misc/parcels/archive/Anaconda-4.2.0-el7.parcelhttps://repo.continuum.io/pkgs/misc/parcels/archive/Anaconda-4.2.0-el7.parcel.shahttps://repo.continuum.io/pkgs/misc/parcels/ar原创 2020-07-30 11:15:03 · 318 阅读 · 0 评论 -
CDH集群部署Spark2.1.0
需求: 在CDH5.14.0集群上部署Spark2.1.0下载parcel包http://archive.cloudera.com/spark2/parcels/2.1.0.cloudera4/SPARK2-2.1.0.cloudera4-1.cdh5.13.3.p0.818552-el7.parcelhttp://archive.cloudera.com/spark2/parcels/2.1.0.cloudera4/SPARK2-2.1.0.cloudera4-1.cdh5.13.3.p0.81原创 2020-07-30 11:03:58 · 458 阅读 · 0 评论 -
CDH集群升级hive
需求: 升级CDH集群的hive组件,由1.1.0升级为1.2.1,保证数据不丢失;下载hive-1.2.1的安装包;http://archive.apache.org/dist/hive/hive-1.2.1/apache-hive-1.2.1-bin.tar.gz将安装包拷贝到集群所有节点;创建hive-1.2.1的依赖路径(所有节点);midir/opt/cloudera/parcels/CDH/lib/hive/lib121解压hive-1.2.1的压缩包,并将解原创 2020-07-30 10:54:30 · 1656 阅读 · 1 评论 -
Scala教程-1 变量与函数的定义
1. 变量与函数的定义1.1 scala与java版本兼容性scala 2.10.X兼容jdk6, jdk7,不兼容jdk8;scala 2.11.X兼容jdk81.2 val定义不可变的变量1.2.1 不显示指定变量的类型scala>val name="robot"name:String = robot注意: val关键字类似于java中的fina...原创 2018-09-15 15:56:10 · 533 阅读 · 0 评论 -
Scala教程-3 Scala中的类
3. Scala中的类Any: 抽象类,是所有类型的父类;Nothing: 是所有类型的子类,Nothing没有对象,但是可以用来定义类型 ,当方法抛出异常或者返回一个类型犹豫不决的时候,可以用Nothing;AnyRef: 是所有引用类型的基类。除了值类型,所有类型都继承自AnyRef 。AnyVal: 是所有值类型的基类,它描述的是值,而不是代表一个对象。它包括9个AnyVal子类型:...原创 2018-09-23 23:35:01 · 522 阅读 · 0 评论 -
Spark的运行架构分析(二)之运行模式详解
在上一篇博客 spark的运行架构分析(一)中我们有谈到Spark的运行模式是多种多样的,那么在这篇博客中我们来具体谈谈Spark的运行模式本博客转载自https://blog.youkuaiyun.com/gamer_gyt/article/details/51833681一:Spark On Local 此种模式下,我们只需要在安装Spark时不进行hadoop和Yarn的环境配置,只要将Spa转载 2018-04-18 17:42:12 · 478 阅读 · 0 评论 -
Spark的运行架构分析(一)之架构概述
1:Spark的运行模式2:Spark中的一些名词解释3:Spark的运行基本流程4:RDD的运行基本流程一:Spark的运行模式 Spark的运行模式多种多样,灵活多变,部署在单机上时,既可以用本地模式运行,也可以用伪分布模式运行,而当以分布式集群的方式部署时,也有众多的运行模式可供选择,这取决于集群的实际情况,底层的资源调度即可以依赖外部资源调度框架,也可以使用Spark转载 2018-04-18 17:35:26 · 723 阅读 · 0 评论