
大数据集群
文章平均质量分 79
张老邪
本人旨在记录学习过程,内容如有错误请见谅,有问题可以邮件交流1694252140@qq.com
展开
-
Prometheus套件安装及使用方法
安装prometheus、node_exporter、grafana和alertmanager等组件,并配置启动服务,由systemd托管运行原创 2022-06-29 11:21:42 · 1676 阅读 · 0 评论 -
Flume+Kafka+Spark streaming
一.使用Flume实时收集日志信息创建streaming_project.conf :exec-memory-logger.sources = exec-sourceexec-memory-logger.channels = memory-channelexec-memory-logger.sinks = logger-sinkexec-memory-logger.sources.exec-source.type = execexec-memory-logger.sources.exec-.原创 2020-08-24 09:08:28 · 475 阅读 · 0 评论 -
Spark streaming + Kafka 实时数据分析大数据项目实战
实时/离线 流式计算框架:Spark StreamingSpark Streaming 是核心spark API的一个扩展,在处理数据前按时间间隔预先将其切分为一段一段的批处理作业。Spark 针对持续性数据流的抽象称为DStream,一个DStream是一个批处理的RDD(弹性分布式数据集);而RDD则是一个分布式数据集,能够以两种方式并行运作,分别是任意函数和滑动窗口数据的转换。实战一:Receiver – based1) 启动zookeeper2) 启动kafka3) 打jar包前先注释掉原创 2020-08-24 09:08:20 · 1141 阅读 · 0 评论 -
整合Flume到Kafka完成实时数据的采集
整合Flume和Kafka的综合使用(1)在flume的conf中添加以下两个文件exec-memory-avro.confAvro-memory-kafka.conf(2)启动原创 2020-08-24 09:08:11 · 181 阅读 · 0 评论 -
实时批处理Spark Streaming
开源在Githubhttps://Github.com/apache/spark一. 概述低延时,可拓展,高吞吐量,可容错的,能够将批处理、机器学习、图计算等子框架和Sparking Streaming综合使用实时数据流的流处理分布式计算框架将不同的数据源的数据经过Sparking Streaming处理之后将结果输出到外部文件系统。Sparking Streaming不需要独立安装一栈式解决!!!二. 应用场景电商三. 集成Spark生态系统的使用四. 发展史五. 从词频原创 2020-08-23 18:31:37 · 812 阅读 · 0 评论 -
hadoop环境及框架介绍
(一)安装hadoop,在/home/hadoop下创建目录app 存放所有的软件的安装目录data 存放测试数据lib 存放jarsoftware 存放软件安装包的目录source 存放框架源码(二)hadoop生态系统:5.7.0所有的Hadoop生态的的软件下载地址:http://archive.cloudera.com/cdh5/cdh/5/jdk: 1.8(被依赖于原创 2020-08-23 18:02:01 · 260 阅读 · 1 评论 -
大数据消息中间件Kafka概述学习
Kafka概述官网:kafka.apache.org分布式流处理平台:发布和订阅 和消息系统类似 消息中间件:生产者和消费者 妈妈:生产者 你:消费者 馒头:数据流 正常情况下:生产一个 消费一个原创 2020-08-23 17:47:09 · 341 阅读 · 0 评论 -
日志收集工具Flume
有多个服务器和系统1) 网络设备2) 操作系统3) Web服务器4) 应用设备系统上有大量的日志和其他数据Flume概述官网:flume.apache.orgFlume是分布式、高可靠、高可用的服务,用于分布式地海量日志地高效地收集、聚合、移动地系统Webserver(源端)=>flume=>hdfs(目的地)设计目标:1) 可靠性2) 扩展性3) 管理性Flume架构及核心组件:1) Source 收集2) Channel 聚集3) Sinks 输出原创 2020-08-23 17:27:18 · 1154 阅读 · 0 评论 -
Cuboid之key-value
如上图原始表所示:Hive表有两个维度列year和city,有一个指标price。如上图预聚合表所示:我们具体要计算的是year和city这两个维度所有维度组合(即4个cuboid)下的sum(priece)指标,这个指标的具体计算过程就是由MapReduce完成的。如上图字典编码所示:为了节省存储资源,Kylin对维度值进行了字典编码。图中将beijing和shanghai依次编码为0和1。如上图HBase KV存储所示:在计算cuboid过程中,会将Hive表的数据转化为HBase的KV形式。R.原创 2020-08-23 17:02:59 · 203 阅读 · 0 评论 -
Cube优化原理
Cube优化原理首先要先了解Cuboid生成树。如图1所示,在Cube中,所有的Cuboid组成一个树形结构,根节点是全维度的Base Cuboid,再依次逐层聚合掉每个维度生成子Cuboid,直到出现0个维度时结束。图1中绿色部分就是一条完整的Cuboid生成路径。预计算的过程实际就是按照这个流程构建所有的Cuboid。图1 Cuboid生成树通过这颗Cuboid生成树,我们不难发现:当维度数量过多,就会导致Cuboid数量以指数级膨胀;如果维度基数过大,还会使所在的Cuboid结果集变大。这些都原创 2020-08-23 16:56:03 · 946 阅读 · 0 评论 -
kylin案例应用注意事项
1. 数据集准备要导入hive中的文件必须是utf-8编码,因为hadoop默认是utf-82. 上传数据表格因为是上传到hadoop下,因此必须切换到hdfs用户,即:su hdfs上传:hadoop fs -put cauc_idnum.csv cauc_keyword.csv cauc_keyword_info.csv cauc_user.csv /kylin-cauc_microblog1查看hadoop下目录:hadoop fs -ls /hadoop fs -ls /kylin-原创 2020-08-23 16:35:40 · 162 阅读 · 0 评论 -
分布式分析管理平台Kylin安装
在cdh 5.3组件中安装Kylin 1.5.3注意:安装kylin前要查看其对应的版本与hadoop版本是否匹配兼容1. 将本地压缩包上传至/opt2. 解压: tar -xzvf apache-kylin-1.3.0-bin.tar.gz3. 更改名字:mv apache-kylin-1.3.0-bin kylin4. 修改配置文件kylin.properties:vim /opt/kylin/conf/kylin.properties主节点:kylin.server.mode=all原创 2020-08-23 16:31:52 · 188 阅读 · 0 评论 -
CDH5.12.1添加新主机
一. JDK安装1.卸载自带JDK查看安装的Java包rpm -qa | grep java将显示的java包全部删除rpm -e --nodeps tzdata-java-2013g-1.el6.noarch卸载自带的版本yum -y remove java java-1.7.0-openjdk验证是否还有java相关包rpm -qa | grep java 2.安装JDK在/usr下新建java文件夹 ==》 将压缩包复制到java中 ==》解压 ==》 配置vi /e原创 2020-08-22 19:02:19 · 553 阅读 · 0 评论