
大数据
文章平均质量分 80
阳宝宝的向日葵
一条努力翻身的咸鱼。。。
展开
-
ES使用记录
设置最大窗口,避免大数据量报错补贴数据六百多万,一直在增加。这里设置一千万,可以根据自己的情况调整原创 2022-06-20 17:54:23 · 240 阅读 · 0 评论 -
Hadoop入门笔记
简介原创 2022-03-18 17:50:26 · 196 阅读 · 0 评论 -
Flink学习笔记
第一章 Flink简介1.1 初识 FlinkFlink项目的理念 是 Apache Flink 是为分布式、高性能、随时可用以及准确的流处理应用程序打造的开源流处理框架 ”。Apache Flink是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。 Flink 被设计 在所有常见的集群环境中运行,以内存执行速度和任意规模来执行计算。1.2 Flink 的重要特点事件驱动型 Event driven)事件驱动型应用是一类具有状态的应用,它从一个或多个事件流提取数据,并根原创 2022-03-18 17:38:15 · 3834 阅读 · 0 评论 -
离线电商数仓建模学习笔记
1. 数据仓库概述1.1 数据仓库概念数据仓库是一个为数据分析而设计的企业级数据管理系统。数据仓库可集中、整合多个信息源的大量数据,借助数据仓库的分析能力,企业可从数据中获得宝贵的信息进而改进决策。同时,随着时间的推移,数据仓库中积累的大量历史数据对于数据科学家和业务分析师也是十分宝贵的。1.2 数据仓库核心架构2. 数据仓库建模概述2.1 数据仓库建模的意义如果把数据看作图书馆里的书,我们希望看到它们在书架上分门别类地放置;如果把数据看作城市的建筑,我们希望城市规划布局合理;如果把数据看作原创 2022-03-17 17:27:39 · 1666 阅读 · 1 评论 -
Hive学习笔记
Hive基本概念什么是HiveHive简介Hive:由Facebook 开源用于解决海量结构化日志的数据统计工具。Hive 是基于Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL 查询功能。Hive 本质: 将HQL 转化成MapReduce 程序Hive 处理的数据存储在HDFSHive 分析数据底层的实现是MapReduce执行程序运行在Yarn 上Hive优缺点优点操作接口采用类SQL 语法,提供快速开发的能力(简单、容易原创 2022-03-15 17:14:03 · 3115 阅读 · 0 评论 -
Kafka从入门到进阶
Kafka概述定义Kafka是一个分布式的基于发布/订阅模式的消息队列(Message Queue),主要应用于大数据实时处理领域。消息队列传统消息队列的应用场景使用消息队列的好处解耦允许你独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束。可恢复性系统的一部分组件失效时,不会影响到整个系统。消息队列降低了进程间的耦合度,所以即使一个处理消息的进程挂掉,加入队列中的消息仍然可以在系统恢复后被处理。缓冲有助于控制和优化数据流经过系统的速度,解决生产消息和消费消息的处理速度原创 2022-03-14 18:31:24 · 240 阅读 · 0 评论 -
Flume从入门到进阶
第一章 Flume概述1.1 Flume定义Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。1.2 Flume基础架构AgentAgent是一个JVM进程,它以事件的形式将数据从源头送至目的。Agent主要有3个部分组成,Source、Channel、Sink。SourceSource是负责接收数据到Flume Agent的组件。Source组件可以处理各种类型、各种格式的日志数据,包括avro、原创 2022-03-14 15:28:58 · 146 阅读 · 0 评论 -
Zookeeper从入门到进阶
Zookeeper内部原理选举机制半数机制:集群中半数以上机器存活,集群可用。所以Zookeeper适合安装奇数台服务器。Zookeeper虽然在配置文件中并没有指定Master和Slave。但是,Zookeeper工作时,是有一个节点为Leader,其他则为Follower,Leader是通过内部的选举机制临时产生的。以一个简单的例子来说明整个选举的过程。假设有五台服务器组成的Zookeeper集群,它们的id从1-5,同时它们都是最新启动的,也就是没有历史数据,在存放数据量这一点上,都是一样原创 2022-03-14 14:59:48 · 84 阅读 · 0 评论