
大数据
shrek11
我好 才是大家好
展开
-
prometheus+grafana 搭建企业级监控系统(三) altermanage 监控通知 企业微信
前言:从下面的架构图看出,当prometheus拉取信息时,可以通过配置rules(规则)预警,把符合预警信息的指标push给altermanager,altermanager然后把这些指标通过邮件,webhook,微信推送(企业)等推送给相关人员。这就是一个完整的企业监控系统。altermanager安装:从prometheus https://prometheus.io/download/官网下载 altermanager比如我是推送企业微信,编辑 alertma...原创 2020-11-20 16:25:03 · 1079 阅读 · 1 评论 -
prometheus+grafana 搭建企业级监控系统(二)micrometer自定义监控spring boot 指定接口指标等指标
前言:比如我们要监控spring boot 的各个指标,比如 JVM的内存各个指标,GC,线程数,甚至自己定义的指标,接口调用次数,成功数,失败数,一段时间调用频率等等。最好效果图如下:原创 2020-11-19 15:17:11 · 2389 阅读 · 0 评论 -
大数据: hive 时间维度表初始化 记录步骤
时间维度表是数据仓库的重要统计项:很多统计都是基于时间。下面是我的一个时间维度表:网上很多用mysql或者是oracle的存储过程初始化数据的,下面我用Hive Sql初始化,记录一下。1,首先设置2个变量 初始开始日期和初始结束日期:0: jdbc:hive2://node1.ansunangel.com:2181,nod> set hivevar:start_day=2020-07-01;No rows affected (0.004 seconds)0: jdbc.原创 2020-08-05 18:00:28 · 987 阅读 · 0 评论 -
大数据 hive 记录 窗口函数 求占比
有个需求 统计每天的类型和占比绑定渠道 绑定人数 统计日期 占比 占比是每天的每个渠道数/每天的总数首先查出来渠道,人数,日期 hql是select case bind_type when 1 then '二维码绑定' when 2 then '邀请码绑定' when 3 then '领取优惠券绑定' when 4 then '分享链接绑定' end bindtype,substring(bind_date,0,10) ...原创 2020-07-20 18:10:04 · 2993 阅读 · 0 评论 -
大数据 (三) BI报表系统 superset 2 制作表格
superset是git上star很多的项目,已经进入了apche的孵化器上节我已经介绍了superset的开发搭建环境,比较麻烦,其实大家可以直接通过命令安装,这样还简单些,下面我介绍一下superset的一些用法superset:既然是做BI智能报表的,具体用途应该配合大数据或者其他数据,当然其他应用也可以由大数据跑实时数据或者离线数据,跑完之后将数据保存到hive的ads层或者是回写到mysqlsuperset可以由业务人员用,可以查询回写后的报表数据,制作成一个个的char.原创 2020-06-24 17:54:47 · 2711 阅读 · 0 评论 -
大数据(二)flink 2 代码demo
上节是介绍一些概念。下面是具体的例子。代码传至GITHUB 传送地址一般都是flink消费kafka的数据来实时统计数据的引入flink相关jar包 <properties> <flink.version>1.7.0</flink.version> <scala.binary.version>2.11</scala.binary.version> <kafka-clients.原创 2020-06-11 16:30:04 · 240 阅读 · 0 评论 -
大数据 (三) BI报表系统 superset 源码搭建开发环境
公司要用BI报表给业务来分析查询数据,对比了几个BI报表,不是收费,就是一般最后决定用superset BI报表,开始去git上找源码开始搭建环境了。我们是5月中下旬开始下的,当时superset的最新版本是0.36,我们从主分支master直接下载。我们之前一直弄java,python很少弄,走了很多坑,无数坑。强烈建议 superset最好不要在window去弄强烈建议 superset最好不要在window去弄强烈建议 superset最好不要在window去弄..原创 2020-05-29 13:46:42 · 2504 阅读 · 0 评论 -
大数据(二)flink 1 概念介绍
Flink介绍:Apache Flink是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。2015年升级为Apache的顶级项目,然后突然爆发,之后被阿里收购。基本上国内说得出名字的大厂都在用flink。Flink特点:1,事件驱动: 根据数据的到来触发一系列的计算,输出等。2,流处理和批处理 批处理的特点就是 有界,持久,量大,非常适合做离线计算 流处理的特点就是 无界,实时,无需针对整个数据集执行操作,而是对传输过来的每...原创 2020-05-21 15:40:34 · 1844 阅读 · 0 评论 -
大数据(一)flume
Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。以下主要版本是Flume-ng.Flume的应用主要用于大数据方面,最开始开发出来也是用来对接KAFKA和HDFS。...原创 2020-05-14 15:38:31 · 253 阅读 · 0 评论 -
大数据架构及技术体系
下面是大数据体系架构图大数据分2个部分,一部分是走实时的,另外一部分是走离线的,不管那块都需要数据来分析从上图来看,数据分为结构化数据(MYSQL,ORACLE等),半结构数据(文件日志),非结构化数据(视频,PPT等)我们一般需要分析的数据 就是结构化的数据和非结构化的数据,非结构化数据可以存HDFS系统。很多专业的东西后面在开博客另讲,先大概了解数据流走向。1,数据收集...原创 2020-04-30 17:19:13 · 6981 阅读 · 1 评论 -
为什么要用大数据和大数据的介绍
像我们做应用开发的(JAVA),会遇到很多的性能瓶颈,最常见的也是最难解决的是数据库存储和查询方面的,当然也有很多解决方案,比如:做表设计优化,查询优化,数据库主从优化,分库分表优化等。但是不管你怎么优化,当量到了一定程度的时候,这么操作就没什么优化效果了以用的最多的MYSQL来说,mysql5.7版本以上的单表最多大概是1000W+,最新的MySQL8的单表上线也是1亿+,当...原创 2020-02-28 10:46:12 · 1514 阅读 · 0 评论