- 博客(15)
- 收藏
- 关注
原创 storm01-实时看板案例
10、实时看板案例 10.1 项目需求梳理 根据订单mq,快速计算双11当天的订单量、销售金额。 10.2 项目架构模型 支付系统+kafka+storm/Jstorm集群+redis集群 1、支付系统发送mq到kafka集群中,编写storm程序消费kafka的数据并计算实时的订单数量、订单数量 2、将计算的实时结果保存在redis中; 3、外部程序访问redis的数据实时展示结果。 10...
2020-01-06 14:29:47
384
原创 storm01
1、Storm是什么 storm是twitter公司开源贡献给apache的一款实时流式处理的一个开源软件,主要用于解决数据的实时计算以及实时的处理等方面的问题 Storm 是一个人的 Hadoop 是一个人写的 Lucene 是一个人写的 Spark是一个学生团队 Python 是一个人写的 Javascript 是一个人的 Linux是一个人写的 2012年横空出世 Storm的特点 Stor...
2020-01-06 11:30:40
297
原创 11-oozie的基本介绍和使用
离线阶段第十一天 oozie:单独使用不太好用。与hue整合之后,就比较好用了 基础环境增强:hadoop的 HA 不用做了。如何在现有的基于伪分布式环境的基础上,转换成HA的环境 CM:在页面上点点配配就可以完成所有用到的大数据软件的安装。做不了 oozie的基本介绍 与azkaban的功能类似。任务调度的框架 oozie的定义语言都是使用xml编写的。里面都是由一个个的action组成的,...
2020-01-06 11:12:02
341
原创 10-impala和介绍,impala和hive的关系,impala的安装
离线阶段第十天 hive+azkaban+sqoop+flume impala+hue+oozie 新一套的离线处理架构 impala的基本介绍:Cloudera公司开源提供的一款sql on hadoop的软件。号称是当前大数据领域大查询最快的一款sql on hadoop的工具 impala能够兼容hive,具有实时批处理等特点,提供高并发 impala与hive之间的关系 impa...
2020-01-06 11:10:45
547
原创 08-azkaban和sqoop的介绍和使用
离线阶段第八天 azkaban两个服务模式的安装与使用 sqoop数据迁移 sqoop是一款数据导入导出的工具,从关系型数据库到大数据平台,从大数据平台到关系型数据库 sqoop的版本分为两大类: sqoop1:主要就是通过命令行来进行操作,比较方便 sqoop2:添加了一个服务端的模式,需要启动一个服务端。我们可以通过代码操作,可以通过脚本操作,可以远程连接操作数据的导入导出等 一般我们都是使用...
2020-01-06 10:55:15
625
原创 07-hive的存储格式及hive的调优及FLUME的基本介绍
离线阶段第七天 hive当中的存储格式 数据的存储格式主要分为两大类,一类是行式存储,一类是列式存储 行式存储:TextFile,SequenceFile。 列式存储:Parquet ,Orc。 第一种文件处处格式:textFile 行式存储 第四种:sequenceFile 二进制的行式存储 第二种存储格式:orc,一个orc文件,由多个stripe组成。一个stripe由三部分构成 in...
2020-01-06 10:52:33
291
原创 06-数据仓库的基本概念及hive的学习
离线课程第六天 上次课程内容回顾 1、社交粉丝数据分析:求共同好友,相同key的value发送到同一个reduce里面去(分区)。相同key合并,value形成一个集合(分组) 2、倒排索引建立:哪个单词在哪个文章当中出现了多少次 3、自定义inputFormat合并小文件:尽量避免小文件的产生 1、上传之前的合并(文件必须是同一类型的) 2、上传之后的文件的合并,自定义inputformat实现...
2020-01-06 10:47:37
394
原创 05-mapreduce高阶训练,yarn的资源调度
离线阶段第五天 上次课程内容回顾 1、mapreduce的分区以及reducetask的个数的设置 分区:将相同key的数据发送到同一个reduce里面去。相同的key合并,value形成一个集合。 reduceTask个数:job.setNumReduceTasks(5) 2、mapredcue当中的序列化以及二次排序 序列化:Writable 排序:Comparable 序列化 + 排序:Wr...
2020-01-06 10:47:28
223
原创 04-map reduce的原理及过程详解
离线课程第四天 课程内容回顾 1、hdfs的详细的介绍 2、hdfs的设计目标 3、hdfs的来源 4、hdfs的架构图 得要知道 namenode:主节点, datanode:从节点 snn:辅助namneode管理元数据信息 5、hdfs的副本机制以及block块存储 6、hdfs的元数据管理 fsimage:一份比较完整的元数据信息。内存 + 磁盘 ed...
2020-01-06 10:47:10
304
原创 03-hdfs的原理详细介绍
离线课程第三天 sql必练50题 https://blog.youkuaiyun.com/fashion2014/article/details/78826299/ 课程内容回顾 1、hadoop的基本介绍 2、hadoop的发展历史 3、hadoop的三大发行公司 4、hadoop的基本架构 hadoop1.x: HDFS:分布式文件存储系统 namenode:主节点,管理元数据信息,以及...
2020-01-06 10:46:48
200
原创 02-hadoop的发展,架构模型,三种运行环境
离线课程第二天 课程回顾 1、三台虚拟机的联网创建 2、linux基础增强 查找命令: ps -ef | grep xxxx find / -name hello.txt 用户与用户组:useradd hadoop passwd hadoop su与sudo: su:切换用户 sudo:权限的借用 visudo linux的权限...
2020-01-06 10:46:36
270
原创 01-linux命令基础和zookeeper的介绍及安装
离线课程阶段第一天 三台虚拟机的创建并联网 记得我们的虚拟机需要重新生成mac地址以及更改内存大小 如果开启虚拟机的时候遇到权限不足的问题,是因为我们的虚拟机文件都是只读的原因造成的,将我们的虚拟机文件夹右键,属性 取消只读选项即可 查看windosw所有的服务命令:services.msc linux的基础增强 查找命令 grep 记下来 统一三台机器的路径 mkdir -p /exp...
2020-01-06 10:46:26
206
原创 利用phoenix建立二级索引查询hbase,大神请无视
利用phoenix建立二级索引查询hbase phoenix的简单介绍 phoenix,中文译为“凤凰”,很美的名字。Phoenix是由saleforce.com开源的一个项目,后又捐给了Apache基金会。它相当于一个Java中间件,提供jdbc连接,操作hbase数据表。Phoenix是一个HBase的开源SQL引擎。你可以使用标准的JDBC API代替HBase客户端API来创建表,插入数...
2019-12-26 15:51:28
664
1
原创 一个典型的行转列sql题
题目如图片所示 图A 图B 图A到图B行变少,列变多,所以是行转列 详细sql看下面: DROP TABLE xyz; --创建表 create table xyz( x string, y string, z...
2019-12-26 14:36:45
324
原创 shell输入指定日期参数,输出该日期的前一天和后一天
shell输入指定日期参数,输出该日期的前一天和后一天 #!/bin/bash c=$1 if [ $# == 1 ]; then yesterday=`date -d "$c -1 day" +"%Y%m%d"` echo $yesterday tomorrow=`date -d "$c 1 day" +"%Y%m%d"` echo $tomorrow else yesterday=`date ...
2019-12-26 14:11:43
8206
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅