自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 storm01-实时看板案例

10、实时看板案例 10.1 项目需求梳理 根据订单mq,快速计算双11当天的订单量、销售金额。 10.2 项目架构模型 支付系统+kafka+storm/Jstorm集群+redis集群 1、支付系统发送mq到kafka集群中,编写storm程序消费kafka的数据并计算实时的订单数量、订单数量 2、将计算的实时结果保存在redis中; 3、外部程序访问redis的数据实时展示结果。 10...

2020-01-06 14:29:47 384

原创 storm01

1、Storm是什么 storm是twitter公司开源贡献给apache的一款实时流式处理的一个开源软件,主要用于解决数据的实时计算以及实时的处理等方面的问题 Storm 是一个人的 Hadoop 是一个人写的 Lucene 是一个人写的 Spark是一个学生团队 Python 是一个人写的 Javascript 是一个人的 Linux是一个人写的 2012年横空出世 Storm的特点 Stor...

2020-01-06 11:30:40 297

原创 11-oozie的基本介绍和使用

离线阶段第十一天 oozie:单独使用不太好用。与hue整合之后,就比较好用了 基础环境增强:hadoop的 HA 不用做了。如何在现有的基于伪分布式环境的基础上,转换成HA的环境 CM:在页面上点点配配就可以完成所有用到的大数据软件的安装。做不了 oozie的基本介绍 与azkaban的功能类似。任务调度的框架 oozie的定义语言都是使用xml编写的。里面都是由一个个的action组成的,...

2020-01-06 11:12:02 341

原创 10-impala和介绍,impala和hive的关系,impala的安装

离线阶段第十天 hive+azkaban+sqoop+flume impala+hue+oozie 新一套的离线处理架构 impala的基本介绍:Cloudera公司开源提供的一款sql on hadoop的软件。号称是当前大数据领域大查询最快的一款sql on hadoop的工具 impala能够兼容hive,具有实时批处理等特点,提供高并发 impala与hive之间的关系 impa...

2020-01-06 11:10:45 547

原创 08-azkaban和sqoop的介绍和使用

离线阶段第八天 azkaban两个服务模式的安装与使用 sqoop数据迁移 sqoop是一款数据导入导出的工具,从关系型数据库到大数据平台,从大数据平台到关系型数据库 sqoop的版本分为两大类: sqoop1:主要就是通过命令行来进行操作,比较方便 sqoop2:添加了一个服务端的模式,需要启动一个服务端。我们可以通过代码操作,可以通过脚本操作,可以远程连接操作数据的导入导出等 一般我们都是使用...

2020-01-06 10:55:15 625

原创 07-hive的存储格式及hive的调优及FLUME的基本介绍

离线阶段第七天 hive当中的存储格式 数据的存储格式主要分为两大类,一类是行式存储,一类是列式存储 行式存储:TextFile,SequenceFile。 列式存储:Parquet ,Orc。 第一种文件处处格式:textFile 行式存储 第四种:sequenceFile 二进制的行式存储 第二种存储格式:orc,一个orc文件,由多个stripe组成。一个stripe由三部分构成 ​ in...

2020-01-06 10:52:33 291

原创 06-数据仓库的基本概念及hive的学习

离线课程第六天 上次课程内容回顾 1、社交粉丝数据分析:求共同好友,相同key的value发送到同一个reduce里面去(分区)。相同key合并,value形成一个集合(分组) 2、倒排索引建立:哪个单词在哪个文章当中出现了多少次 3、自定义inputFormat合并小文件:尽量避免小文件的产生 1、上传之前的合并(文件必须是同一类型的) 2、上传之后的文件的合并,自定义inputformat实现...

2020-01-06 10:47:37 394

原创 05-mapreduce高阶训练,yarn的资源调度

离线阶段第五天 上次课程内容回顾 1、mapreduce的分区以及reducetask的个数的设置 分区:将相同key的数据发送到同一个reduce里面去。相同的key合并,value形成一个集合。 reduceTask个数:job.setNumReduceTasks(5) 2、mapredcue当中的序列化以及二次排序 序列化:Writable 排序:Comparable 序列化 + 排序:Wr...

2020-01-06 10:47:28 223

原创 04-map reduce的原理及过程详解

离线课程第四天 课程内容回顾 1、hdfs的详细的介绍 2、hdfs的设计目标 3、hdfs的来源 4、hdfs的架构图 得要知道 ​ namenode:主节点, ​ datanode:从节点 ​ snn:辅助namneode管理元数据信息 5、hdfs的副本机制以及block块存储 6、hdfs的元数据管理 ​ fsimage:一份比较完整的元数据信息。内存 + 磁盘 ​ ed...

2020-01-06 10:47:10 304

原创 03-hdfs的原理详细介绍

离线课程第三天 sql必练50题 https://blog.youkuaiyun.com/fashion2014/article/details/78826299/ 课程内容回顾 1、hadoop的基本介绍 2、hadoop的发展历史 3、hadoop的三大发行公司 4、hadoop的基本架构 ​ hadoop1.x: ​ HDFS:分布式文件存储系统 ​ namenode:主节点,管理元数据信息,以及...

2020-01-06 10:46:48 200

原创 02-hadoop的发展,架构模型,三种运行环境

离线课程第二天 课程回顾 1、三台虚拟机的联网创建 2、linux基础增强 ​ 查找命令: ps -ef | grep xxxx ​ find / -name hello.txt ​ 用户与用户组:useradd hadoop passwd hadoop ​ su与sudo: su:切换用户 ​ sudo:权限的借用 visudo ​ linux的权限...

2020-01-06 10:46:36 270

原创 01-linux命令基础和zookeeper的介绍及安装

离线课程阶段第一天 三台虚拟机的创建并联网 记得我们的虚拟机需要重新生成mac地址以及更改内存大小 如果开启虚拟机的时候遇到权限不足的问题,是因为我们的虚拟机文件都是只读的原因造成的,将我们的虚拟机文件夹右键,属性 取消只读选项即可 查看windosw所有的服务命令:services.msc linux的基础增强 查找命令 grep 记下来 统一三台机器的路径 mkdir -p /exp...

2020-01-06 10:46:26 206

原创 利用phoenix建立二级索引查询hbase,大神请无视

利用phoenix建立二级索引查询hbase phoenix的简单介绍 phoenix,中文译为“凤凰”,很美的名字。Phoenix是由saleforce.com开源的一个项目,后又捐给了Apache基金会。它相当于一个Java中间件,提供jdbc连接,操作hbase数据表。Phoenix是一个HBase的开源SQL引擎。你可以使用标准的JDBC API代替HBase客户端API来创建表,插入数...

2019-12-26 15:51:28 664 1

原创 一个典型的行转列sql题

题目如图片所示 图A 图B 图A到图B行变少,列变多,所以是行转列 详细sql看下面: DROP TABLE xyz; --创建表 create table xyz( x string, y string, z...

2019-12-26 14:36:45 324

原创 shell输入指定日期参数,输出该日期的前一天和后一天

shell输入指定日期参数,输出该日期的前一天和后一天 #!/bin/bash c=$1 if [ $# == 1 ]; then yesterday=`date -d "$c -1 day" +"%Y%m%d"` echo $yesterday tomorrow=`date -d "$c 1 day" +"%Y%m%d"` echo $tomorrow else yesterday=`date ...

2019-12-26 14:11:43 8206

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除