- 博客(8)
- 收藏
- 关注
原创 gztcopy yonghuhuaxiang
第一章 项目整体介绍 电商平台系统上线运行一段时间后,可以收集到大量的用户行为数据;利用大数据技术进行深入挖掘和分析,可以得到感兴趣的商业指标。而随着大数据技术的深入研究与应用,简单的统计指标已经不能满足业务发展的需求了。 企业的关注点,日益聚焦在、如何利用大数据,来为精细化运营和精准营销服务。而要做精细化运营,首先要建立本企业的用户画像。 1.1 数据源分析 项目所用到的数据源,就是业务系统中收集的数据,保存在MySQL的表中。 主要有以下这些表: 用户信息表(t_member) 用户地址表(t_
2020-10-19 08:07:25
626
原创 impalagzt
第1章 Impala的基本概念 1.1 什么是Impala Cloudera公司推出,提供对HDFS、Hbase数据的高性能、低延迟的交互式SQL查询功能。 基于Hive,使用内存计算,兼顾数据仓库、具有实时、批处理、多并发等优点。 是CDH平台首选的PB级大数据实时查询分析引擎。 1.2 Impala的优缺点 1.3 Impala的组成 1.4 Impala的运行原理 Impala执行查询的具体过程: 1)当用户提交查询前,Impala先创建一个负责协调客户端提交的查询的Impalad进程,该进程会向Im
2020-10-18 22:22:28
275
1
原创 kafka高效读写的原因
kafka高效读写的原因 1.顺序写磁盘 kafka的producer在生产数据的时候会将数据顺序追加到log文件的末端,这样减少了大量的磁头寻址时间,比随机写要快很多 2.零拷贝技术 kafka中的消费者在读取服务端的数据时,需要将服务器端的磁盘文件通过网络发送到kafka进程,网络发送需要经过几种网络节点。如图所示: 传统的读取文件数据并发送到网络的步骤如下 (1)操作系统将数据从磁盘文件中读取到内核空间中的页面缓存; (2)应用程序将数据从内核空间读取到用户空间缓冲区; (3)应用程序将读到数据写回
2020-08-23 21:51:07
623
原创 Flume Agent内部流程解析
Fiume内部原理 1.首先Flume中的组件最先接收到数据的是Source 2.Source在接收到数据后,会把数据包装成Event,并且把数据交给Channel处理 3.由ChannelProcessor决定具体怎么交到Channel以及交到哪个Channel 4.在ChannelProcessor处理流程的过程中,首先会将事件拿过来发给拦截器(链)。拦截器(链)可以先进行数据的清洗、处理不合格的数据。比较常用的是给数据加一些header。 拦截器尽量不要写过重的逻辑,否则会影响流式处理的链条,整个效
2020-06-28 00:49:41
426
原创 Flume事务
Flume事务Flume事务1.put事务2.take事务 Flume事务 Flume在处理数据的时候,涉及到数据流动的有两个地方。一个是Source向Channel中放数据的时候,涉及到一个数据的发送(put事务)。还一个是Sink从Channel中拉取数据,也涉及到一个数据的发送。当涉及到数据的批量操作时,就会通过事务来保证数据的一致性和完整性。 1.put事务 流程:Flume在内存中建立以块缓存,所有Source拉来的数据会包装成Event,并在putList中进行积累。到达一定程度的时候(到达一定
2020-06-28 00:11:52
353
原创 Flume概述、安装与部署、两个简单的小案例
Flume3.0概述、安装与部署、两个简单的小案例 一:Flume概述 1.Flume的定义 Flume是Cloudera提供的一个高可用的,高可靠的,分布式海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。所谓的流式架构,简单来说就是数据源源不断的来,并且不停的处理输出,相对于流式架构,有一个静态数据处理,静态数据处理的代表为mapreduce。 流式数据处理的主要两个特点,一个是源源不断,另一个是粒度细(按行收集数据),粒度越细,实时性越高 Flume的主要作用就是,实时 读取服务器本地
2020-06-27 22:04:07
176
原创 kafka开发经验之kafka压力测试,机器数量计算及分区数量计算
kafka开发经验之kafka压力测试,机器数量计算及分区数量计算 一:kafka压力测试 用Kafka官方自带的脚本,对Kafka进行压测。Kafka压测时,可以查看到哪个地方出现了瓶颈(CPU,内存,网络IO)。一般都是网络IO达到瓶颈。 kafka-consumer-perf-test.sh kafka-producer-perf-test.sh 1)Kafka Producer压力测试 在kafka的安装目录下的bin目录下有如下两个文件。我们来测试一下 bin/kafka-producer-per
2020-06-26 12:54:30
735
原创 解决phoenix胖客户端中的异常:client does not have phoenix.schema.isNamespaceMappingEnabled
解决胖客户端中的异常:`Inconsistent namespace mapping properties. Cannot initiate connection as SYSTEM:CATALOG is found but client does not have phoenix.schema.isNamespaceMappingEnabled enabled 在使用phoenix的胖客户端的时候,经常会遇到下面这样的异常。那么如何让解决呢? 方式一: 把hbase中的hbase-site.xml复制粘
2020-06-23 13:00:33
2020
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人