Mr.King吧啦吧啦-优快云博客

原创 storm01-实时看板案例

10、实时看板案例 10.1 项目需求梳理根据订单mq，快速计算双11当天的订单量、销售金额。 10.2 项目架构模型支付系统+kafka+storm/Jstorm集群+redis集群 1、支付系统发送mq到kafka集群中，编写storm程序消费kafka的数据并计算实时的订单数量、订单数量 2、将计算的实时结果保存在redis中； 3、外部程序访问redis的数据实时展示结果。 10...

2020-01-06 14:29:47 384

1、Storm是什么 storm是twitter公司开源贡献给apache的一款实时流式处理的一个开源软件，主要用于解决数据的实时计算以及实时的处理等方面的问题 Storm 是一个人的 Hadoop 是一个人写的 Lucene 是一个人写的 Spark是一个学生团队 Python 是一个人写的 Javascript 是一个人的 Linux是一个人写的 2012年横空出世 Storm的特点 Stor...

2020-01-06 11:30:40 297

原创 11-oozie的基本介绍和使用

离线阶段第十一天 oozie：单独使用不太好用。与hue整合之后，就比较好用了基础环境增强：hadoop的 HA 不用做了。如何在现有的基于伪分布式环境的基础上，转换成HA的环境 CM：在页面上点点配配就可以完成所有用到的大数据软件的安装。做不了 oozie的基本介绍与azkaban的功能类似。任务调度的框架 oozie的定义语言都是使用xml编写的。里面都是由一个个的action组成的，...

2020-01-06 11:12:02 341

原创 10-impala和介绍，impala和hive的关系，impala的安装

离线阶段第十天 hive+azkaban+sqoop+flume impala+hue+oozie 新一套的离线处理架构 impala的基本介绍：Cloudera公司开源提供的一款sql on hadoop的软件。号称是当前大数据领域大查询最快的一款sql on hadoop的工具 impala能够兼容hive，具有实时批处理等特点，提供高并发 impala与hive之间的关系 impa...

2020-01-06 11:10:45 547

原创 08-azkaban和sqoop的介绍和使用

离线阶段第八天 azkaban两个服务模式的安装与使用 sqoop数据迁移 sqoop是一款数据导入导出的工具，从关系型数据库到大数据平台，从大数据平台到关系型数据库 sqoop的版本分为两大类： sqoop1：主要就是通过命令行来进行操作，比较方便 sqoop2：添加了一个服务端的模式，需要启动一个服务端。我们可以通过代码操作，可以通过脚本操作，可以远程连接操作数据的导入导出等一般我们都是使用...

2020-01-06 10:55:15 625

原创 07-hive的存储格式及hive的调优及FLUME的基本介绍

离线阶段第七天 hive当中的存储格式数据的存储格式主要分为两大类，一类是行式存储，一类是列式存储行式存储：TextFile，SequenceFile。列式存储：Parquet ,Orc。第一种文件处处格式：textFile 行式存储第四种：sequenceFile 二进制的行式存储第二种存储格式：orc，一个orc文件，由多个stripe组成。一个stripe由三部分构成 in...

2020-01-06 10:52:33 291

原创 06-数据仓库的基本概念及hive的学习

离线课程第六天上次课程内容回顾 1、社交粉丝数据分析：求共同好友，相同key的value发送到同一个reduce里面去（分区）。相同key合并，value形成一个集合（分组） 2、倒排索引建立：哪个单词在哪个文章当中出现了多少次 3、自定义inputFormat合并小文件：尽量避免小文件的产生 1、上传之前的合并（文件必须是同一类型的） 2、上传之后的文件的合并，自定义inputformat实现...

2020-01-06 10:47:37 394

原创 05-mapreduce高阶训练，yarn的资源调度

离线阶段第五天上次课程内容回顾 1、mapreduce的分区以及reducetask的个数的设置分区：将相同key的数据发送到同一个reduce里面去。相同的key合并，value形成一个集合。 reduceTask个数：job.setNumReduceTasks(5) 2、mapredcue当中的序列化以及二次排序序列化：Writable 排序：Comparable 序列化 + 排序：Wr...

2020-01-06 10:47:28 223

原创 04-map reduce的原理及过程详解

离线课程第四天课程内容回顾 1、hdfs的详细的介绍 2、hdfs的设计目标 3、hdfs的来源 4、hdfs的架构图得要知道 namenode：主节点， datanode：从节点 snn：辅助namneode管理元数据信息 5、hdfs的副本机制以及block块存储 6、hdfs的元数据管理 fsimage：一份比较完整的元数据信息。内存 + 磁盘 ed...

2020-01-06 10:47:10 304

原创 03-hdfs的原理详细介绍

离线课程第三天 sql必练50题 https://blog.youkuaiyun.com/fashion2014/article/details/78826299/ 课程内容回顾 1、hadoop的基本介绍 2、hadoop的发展历史 3、hadoop的三大发行公司 4、hadoop的基本架构 hadoop1.x： HDFS：分布式文件存储系统 namenode：主节点，管理元数据信息，以及...

2020-01-06 10:46:48 200

原创 02-hadoop的发展，架构模型，三种运行环境

离线课程第二天课程回顾 1、三台虚拟机的联网创建 2、linux基础增强查找命令： ps -ef | grep xxxx find / -name hello.txt 用户与用户组：useradd hadoop passwd hadoop su与sudo： su：切换用户 sudo：权限的借用 visudo linux的权限...

2020-01-06 10:46:36 270

原创 01-linux命令基础和zookeeper的介绍及安装

离线课程阶段第一天三台虚拟机的创建并联网记得我们的虚拟机需要重新生成mac地址以及更改内存大小如果开启虚拟机的时候遇到权限不足的问题，是因为我们的虚拟机文件都是只读的原因造成的，将我们的虚拟机文件夹右键，属性取消只读选项即可查看windosw所有的服务命令：services.msc linux的基础增强查找命令 grep 记下来统一三台机器的路径 mkdir -p /exp...

2020-01-06 10:46:26 206

原创利用phoenix建立二级索引查询hbase，大神请无视

利用phoenix建立二级索引查询hbase phoenix的简单介绍 phoenix，中文译为“凤凰”，很美的名字。Phoenix是由saleforce.com开源的一个项目，后又捐给了Apache基金会。它相当于一个Java中间件，提供jdbc连接，操作hbase数据表。Phoenix是一个HBase的开源SQL引擎。你可以使用标准的JDBC API代替HBase客户端API来创建表，插入数...

2019-12-26 15:51:28 664 1

原创一个典型的行转列sql题

题目如图片所示图A 图B 图A到图B行变少，列变多，所以是行转列详细sql看下面: DROP TABLE xyz; --创建表 create table xyz( x string, y string, z...

2019-12-26 14:36:45 324

原创 shell输入指定日期参数，输出该日期的前一天和后一天

shell输入指定日期参数，输出该日期的前一天和后一天 #!/bin/bash c=$1 if [ $# == 1 ]; then yesterday=`date -d "$c -1 day" +"%Y%m%d"` echo $yesterday tomorrow=`date -d "$c 1 day" +"%Y%m%d"` echo $tomorrow else yesterday=`date ...

2019-12-26 14:11:43 8206

weixin_44553150的博客