
大数据
文章平均质量分 68
8000006808
这个作者很懒,什么都没留下…
展开
-
Doris
初识doris的那些基本概念(数据模型如聚合模型,ROLLUP)https://www.icode9.com/content-4-826929.htmldoris官方文档http://doris.apache.org/master/zh-CN/sql-reference/sql-statements/Data%20Definition/CREATE%20TABLE.html#description原创 2021-09-07 15:54:55 · 255 阅读 · 0 评论 -
数据建模理论
Inmon范式模型http://www.360doc.com/content/20/1006/18/68247788_939173668.shtmlKimball纬度建模数据仓库查询性能优先星型模型星型模型是反范式的。多维数据集每个维度都直接与事实表相连接,不存在渐变维度,所以数据有冗余。美团数据仓库建设实践美团数据仓库建设实践规范(1) 词根词根是维度和指标管理的基础,划分为普通词根与专有词根,提高词根的易用性和关联性。普通词根:描述事物的最小单元体,如:交易-trade。专有词原创 2021-08-31 10:22:03 · 480 阅读 · 0 评论 -
Flink入门
flink简介https://blog.youkuaiyun.com/qq_35423154/article/details/1137598911. environmentflink任务在提交计算时,首先与flink框架建立联系,获取了环境信息才能将task调度到不同的任务管理者那里执行。2.SourceFlink框架从不同的数据源获取数据,随后框架对数据进行处理1)从数据集合中读取数据一般将数据临时加载入内存中,形成特殊的数据结构。作为数据源使用2)从文件中读取数据比较常见的是将日志文件作为数据源.原创 2021-08-25 11:27:16 · 144 阅读 · 0 评论 -
Spark入门
Spark参见:https://blog.youkuaiyun.com/c391183914/article/details/78672555#21-%E9%9B%86%E7%BE%A4%E8%A7%92%E8%89%B2spark是什么?Spark是一种快速、通用、可扩展的大数据分析引擎Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、Spark Streaming、GraphX、MLib、SparkR等子项目,Spark是基于内存计算的大数据并行计算框架。Spark内置原创 2021-08-24 16:47:38 · 82 阅读 · 0 评论 -
MySQL/Hive SQL不知不会
mySql的UDF是什么用户自定义函数原创 2021-08-20 11:51:56 · 90 阅读 · 0 评论 -
kafka
目录kafka各概念新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入kafka各概念消费者、生产者主题topic:消费者通过订阅相应主题来获取消息分区partition:主题里可以有多个分区代理broker:一个代原创 2021-08-06 14:55:32 · 78 阅读 · 0 评论 -
大数据面经
大数据面经1. 数据库和数据仓库的区别数据库数据仓库用途事务处理数据分析特点* 复杂的表格结构,存储结构相对紧致,少冗余数据* 读写都有优化* 相对简单的读写请求,单次作用于相对少量的数据* 简单的表结构,存储结构相对松散,冗余数据多* 一般只是读优化* 相对复杂的读请求,作用于大量数据特点解析:存储空间对比大量冗余数据基本读操作需要表的关联才能查到所需要的信息牺牲空间 换 查询效率。记录在同一张表上大数据读操作单点多点-分布式原创 2021-03-26 17:10:18 · 121 阅读 · 0 评论 -
HBase专项
HBase概述HBase是Hadoop的数据库,HBase是一个分布式的、面向列的开源数据库,它不同于一般的关系数据库,是一个适合非结构化数据存储的数据库。HBase利用Hadoop的HDFS作为其文件存储系统,利用ZooKeeper作为其协调工具,非常适合用来进行大数据的实时读写。HBase表是一个稀疏多维表,表中的数据是未经解释的字符串,没有数据类型,每一行都有一个行键,表被分组成许多列族集合,列族支持动态扩展,可以很方便地添加一个列族或列,无须事先预定于列的数量和类型,所有列都是以字符串形式存储。原创 2021-03-26 17:09:42 · 188 阅读 · 0 评论 -
MapReduce专项
MapReduce详解Hadoop MapReduce 也采用了 Master/Slave(M/S)架构,具体如图所示。它主要由以下几个组件组成:Client、JobTracker、TaskTracker 和 Task。 下面分别对这几个组件进行介绍25.1.3.1. Client用户编写的 MapReduce 程序通过 Client 提交到 JobTracker 端; 同时, 用户可通过 Client 提供的一些接口查看作业运行状态。 在 Hadoop 内部用“作业”(Job) 表示 MapRed原创 2021-03-26 17:08:59 · 277 阅读 · 1 评论 -
大数据面试题
8. 大数据1. 介绍一下HadoopHadoop是一套大数据解决方案,提供了一套分布式的系统基础架构,包括HDFS,MapReduce和YARN。HDFS提供分布式的数据存储MapReduce负责进行数据运算YARN负责任务调度HDFS是主从架构的,包括namenode,secondary namenode和datanode。datanode负责存储数据,namenode负责管理HDFS的目录树和文件元信息。MapReduce包括jobtracker,tasktracker和client原创 2021-03-26 14:42:05 · 359 阅读 · 1 评论 -
Yarn专项
Yarn概述1. 概念YARN 是一个资源管理、任务调度的框架,主要包含三大模块:ResourceManager(RM)、NodeManager(NM)、ApplicationMaster(AM)。其中,ResourceManager 负责所有资源的监控、分配和管理; ApplicationMaster 负责每一个具体应用程序的调度和协调;NodeManager 负责每一个节点的维护。对于所有的 applications,RM 拥有绝对的控制权和对资源的分配权。而每个 AM 则会和 RM 协商资源原创 2021-03-25 21:48:19 · 403 阅读 · 2 评论 -
HDFS专项
HDFS概述使用场景:一次写入,多次读取,且不支持文件的修改优缺点组织架构3)Client:就是客户端。 (1)文件切分。文件上传HDFS的时候,Client将文件切分成一个一个的Block,然后进行上传; (2)与NameNode交互,获取文件的位置信息; (3)与DataNode交互,读取或者写入数据; (4)Client提供一些命令来管理HDFS,比如NameNode格式化; (5)Client可以通过一些命令来访问HDFS,比如对HDFS增删查改操作;4)Seco原创 2021-03-24 16:50:38 · 143 阅读 · 0 评论 -
zookeeper原理
文章目录zookeeper概述1. 工作机制2. zookeeper特点3. zookeeper数据结构4. 应用场景zookeeper内部原理1. 选举机制2. 监听器原理3. 写数据原理zookeeper概述1. 工作机制存储和管理关心的数据,然后接受观察者的注册,一旦这些数据的状态发生变化,zookeeper将通知在zookeeper上注册的观察者做出反应2. zookeeper特点一个领导者,多个跟随者组成的集群集群中只要半数以上节点存活,集群就能正常工作全局数据一致,每个服务器保存原创 2021-03-24 11:31:43 · 103 阅读 · 0 评论 -
大数据基础入门 ------文章来源于:某个入门课程
什么是大数据?大量的数据举例:1、商品推荐: 问题:(1)大量的订单如何存储? (2)大量的订单如何计算?2、天气预报: 问题:(1)大量的天气数据如何存储?(2)大量的天气数据如何计算?大数据本质:存储和计算的问题分布式文件系统(分布式存储)分布式计算java和大数据的关系hadoop :基于Java语言开发spark: 基于Scala语言,Scala基于Java语言学习大数据需要的基础和路线Java基础(JavaSE)—> 类、继承、I/O、反射、泛型****原创 2021-03-23 16:28:58 · 275 阅读 · 0 评论 -
Hadoop环境安装
Hadoop环境安装 (CLI)主要参考:https://blog.youkuaiyun.com/qq_36561697/article/details/80994405https://blog.youkuaiyun.com/weixin_38883338/article/details/82928809https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/stable2/创建新用户$ sudo useradd -m hadoop -s /bin/b原创 2021-03-20 15:28:34 · 166 阅读 · 0 评论