- 博客(15)
- 收藏
- 关注
原创 storm01-实时看板案例
10、实时看板案例10.1 项目需求梳理根据订单mq,快速计算双11当天的订单量、销售金额。10.2 项目架构模型支付系统+kafka+storm/Jstorm集群+redis集群1、支付系统发送mq到kafka集群中,编写storm程序消费kafka的数据并计算实时的订单数量、订单数量2、将计算的实时结果保存在redis中;3、外部程序访问redis的数据实时展示结果。10...
2020-01-06 14:29:47
338
原创 storm01
1、Storm是什么storm是twitter公司开源贡献给apache的一款实时流式处理的一个开源软件,主要用于解决数据的实时计算以及实时的处理等方面的问题Storm 是一个人的Hadoop 是一个人写的Lucene 是一个人写的Spark是一个学生团队Python 是一个人写的Javascript 是一个人的Linux是一个人写的2012年横空出世Storm的特点Stor...
2020-01-06 11:30:40
257
原创 11-oozie的基本介绍和使用
离线阶段第十一天oozie:单独使用不太好用。与hue整合之后,就比较好用了基础环境增强:hadoop的 HA 不用做了。如何在现有的基于伪分布式环境的基础上,转换成HA的环境CM:在页面上点点配配就可以完成所有用到的大数据软件的安装。做不了oozie的基本介绍与azkaban的功能类似。任务调度的框架oozie的定义语言都是使用xml编写的。里面都是由一个个的action组成的,...
2020-01-06 11:12:02
303
原创 10-impala和介绍,impala和hive的关系,impala的安装
离线阶段第十天hive+azkaban+sqoop+flumeimpala+hue+oozie 新一套的离线处理架构impala的基本介绍:Cloudera公司开源提供的一款sql on hadoop的软件。号称是当前大数据领域大查询最快的一款sql on hadoop的工具impala能够兼容hive,具有实时批处理等特点,提供高并发impala与hive之间的关系impa...
2020-01-06 11:10:45
504
原创 08-azkaban和sqoop的介绍和使用
离线阶段第八天azkaban两个服务模式的安装与使用sqoop数据迁移sqoop是一款数据导入导出的工具,从关系型数据库到大数据平台,从大数据平台到关系型数据库sqoop的版本分为两大类:sqoop1:主要就是通过命令行来进行操作,比较方便sqoop2:添加了一个服务端的模式,需要启动一个服务端。我们可以通过代码操作,可以通过脚本操作,可以远程连接操作数据的导入导出等一般我们都是使用...
2020-01-06 10:55:15
565
原创 07-hive的存储格式及hive的调优及FLUME的基本介绍
离线阶段第七天hive当中的存储格式数据的存储格式主要分为两大类,一类是行式存储,一类是列式存储行式存储:TextFile,SequenceFile。列式存储:Parquet ,Orc。第一种文件处处格式:textFile 行式存储第四种:sequenceFile 二进制的行式存储第二种存储格式:orc,一个orc文件,由多个stripe组成。一个stripe由三部分构成 in...
2020-01-06 10:52:33
257
原创 06-数据仓库的基本概念及hive的学习
离线课程第六天上次课程内容回顾1、社交粉丝数据分析:求共同好友,相同key的value发送到同一个reduce里面去(分区)。相同key合并,value形成一个集合(分组)2、倒排索引建立:哪个单词在哪个文章当中出现了多少次3、自定义inputFormat合并小文件:尽量避免小文件的产生1、上传之前的合并(文件必须是同一类型的)2、上传之后的文件的合并,自定义inputformat实现...
2020-01-06 10:47:37
358
原创 05-mapreduce高阶训练,yarn的资源调度
离线阶段第五天上次课程内容回顾1、mapreduce的分区以及reducetask的个数的设置分区:将相同key的数据发送到同一个reduce里面去。相同的key合并,value形成一个集合。reduceTask个数:job.setNumReduceTasks(5)2、mapredcue当中的序列化以及二次排序序列化:Writable排序:Comparable序列化 + 排序:Wr...
2020-01-06 10:47:28
190
原创 04-map reduce的原理及过程详解
离线课程第四天课程内容回顾1、hdfs的详细的介绍2、hdfs的设计目标3、hdfs的来源4、hdfs的架构图 得要知道 namenode:主节点, datanode:从节点 snn:辅助namneode管理元数据信息5、hdfs的副本机制以及block块存储6、hdfs的元数据管理 fsimage:一份比较完整的元数据信息。内存 + 磁盘 ed...
2020-01-06 10:47:10
267
原创 03-hdfs的原理详细介绍
离线课程第三天sql必练50题https://blog.youkuaiyun.com/fashion2014/article/details/78826299/课程内容回顾1、hadoop的基本介绍2、hadoop的发展历史3、hadoop的三大发行公司4、hadoop的基本架构 hadoop1.x: HDFS:分布式文件存储系统 namenode:主节点,管理元数据信息,以及...
2020-01-06 10:46:48
177
原创 02-hadoop的发展,架构模型,三种运行环境
离线课程第二天课程回顾1、三台虚拟机的联网创建2、linux基础增强 查找命令: ps -ef | grep xxxx find / -name hello.txt 用户与用户组:useradd hadoop passwd hadoop su与sudo: su:切换用户 sudo:权限的借用 visudo linux的权限...
2020-01-06 10:46:36
240
原创 01-linux命令基础和zookeeper的介绍及安装
离线课程阶段第一天三台虚拟机的创建并联网记得我们的虚拟机需要重新生成mac地址以及更改内存大小如果开启虚拟机的时候遇到权限不足的问题,是因为我们的虚拟机文件都是只读的原因造成的,将我们的虚拟机文件夹右键,属性 取消只读选项即可查看windosw所有的服务命令:services.msclinux的基础增强查找命令 grep 记下来统一三台机器的路径 mkdir -p /exp...
2020-01-06 10:46:26
170
原创 利用phoenix建立二级索引查询hbase,大神请无视
利用phoenix建立二级索引查询hbasephoenix的简单介绍 phoenix,中文译为“凤凰”,很美的名字。Phoenix是由saleforce.com开源的一个项目,后又捐给了Apache基金会。它相当于一个Java中间件,提供jdbc连接,操作hbase数据表。Phoenix是一个HBase的开源SQL引擎。你可以使用标准的JDBC API代替HBase客户端API来创建表,插入数...
2019-12-26 15:51:28
608
1
原创 一个典型的行转列sql题
题目如图片所示图A 图B图A到图B行变少,列变多,所以是行转列详细sql看下面:DROP TABLE xyz;--创建表create table xyz(x string,y string,z...
2019-12-26 14:36:45
296
原创 shell输入指定日期参数,输出该日期的前一天和后一天
shell输入指定日期参数,输出该日期的前一天和后一天#!/bin/bashc=$1if [ $# == 1 ]; thenyesterday=`date -d "$c -1 day" +"%Y%m%d"`echo $yesterdaytomorrow=`date -d "$c 1 day" +"%Y%m%d"`echo $tomorrowelseyesterday=`date ...
2019-12-26 14:11:43
8091
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人