
大数据
SmartShylyBoy
这个作者很懒,什么都没留下…
展开
-
数据库是根和数据仓库是魂
注:本文ETL部分完全来自https://www.cnblogs.com/yjd_hycf_space/p/7772722.html一、什么是数据仓库 数据仓库,Data Warehouse,可简写为DW或者DWH,数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持,他出于分析性报告和决策目的而创建的数据集合二、数据库的特性:面向主题:传统数据库中,最大的...原创 2018-08-28 01:38:20 · 396 阅读 · 0 评论 -
hadoop fs,hadoop dfs以及hdfs dfs区别
hadoop fs,hadoop dfs以及hdfs dfs区别该文由本人于网上查阅资料所得,如有错误希望帮忙评论指正谢谢。hadoop fs:FS relates to a generic file system which can point to any file systems like local, HDFS etc. So this can be used when you ar...转载 2019-03-14 10:26:59 · 1490 阅读 · 0 评论 -
一个例子搞懂宽表和窄表的区别
宽表:从字面意义上讲就是字段比较多的数据库表。通常是指业务主题相关的指标、维度、属性关联在一起的一张数据库表。由于把不同的内容都放在同一张表存储,宽表已经不符合三范式的模型设计规范,随之带来的主要坏处就是数据的大量冗余,与之相对应的好处就是查询性能的提高与便捷。这种宽表的设计广泛应用于数据挖掘模型训练前的数据准备,通过把相关字段放在同一张表中,可以大大提高数据挖掘模型训练过程中迭代计算时的效率问题...原创 2018-11-13 11:28:45 · 54320 阅读 · 0 评论 -
什么是Kerberos?
关于Kerberos什么是Kerberos?一句话,Kerberos是一种认证机制。它的目的:通过密钥系统为客户端/服务器应用程序提供强大的认证服务:保护服务器防止错误的用户使用,同时保护它的用户使用正确的服务器,即支持双向验证;Kerberos协议的整个认证过程实现不依赖于主机操作系统的认证,无需基于主机地址的信任,不要求网络上所有主机的物理安全,并假定网络上传送的数据包可以被任意地读取...转载 2018-11-03 17:38:43 · 4809 阅读 · 0 评论 -
hive内部表和外部表的区别
我们在使用数据仓库时,一般会公司会使用hive作为首选数据仓库而不是性能更高Teradata(数据仓库配备性能最高、最可靠的大规模并行处理 (MPP) 平台,能够高速处理海量数据,其性能远远高于Hive)呢,这就是hive的最大的优点一个是原生hadoop生态系统完全兼容第二个就是不要钱。关于数据仓库是什么我之前做过解释,这里就添加一个面试常问的问题,hive内部表和外部表有什么区别?其核心就...原创 2018-09-14 22:57:58 · 1049 阅读 · 0 评论 -
hadoop生态圈中hive模块100问
一、嘛是数据仓库和数据库的区别?hive的是一个数据仓库,数据仓库是面向主题的,偏向于做OLAP(online-Analytical-Processing),只要工作是方便给决策人员提供报表,来做决策分析。而传统关系型数据库比如MySQL是面向应用,主要工作是在指定的隔离机制中做增删改查的,偏向OLTP(Online-Transation-Processing)联机事务处理,同样二者数据存储结...原创 2018-09-10 17:12:56 · 351 阅读 · 0 评论 -
RDD、DataFrame、DataSet的关系是抽象关系
一、序言 可以说,RDD的使用是Spark最重要的抽象概念! 初学者可能不太理解这三者之间的关系,其实他们就是不断地抽象、封装,目的只有一个,Apache让Spark让你使用起来更简单!功能更强大!二、三者的介绍RDD:传统MapReduce虽然也具有自动容错、负载均衡、可拓展等特点,但是是采用非循环的数据流模型结构,这使得在迭代时要与HDFS产生大量的IO,RDD正是解决了这个缺点...原创 2018-09-08 23:27:06 · 476 阅读 · 0 评论 -
梳理spark中shuffle操作HashShuffleManager和SortShuffleManager的原理
spark中的shuffleManager是负责shuffle过程的执行,计算和处理的组件.shuffleManager是trait,主要实现类有两 个:一个是HashShuffleManager,另外一个是SortShuffleManager.一、HashShuffleManager和SortShuffleManager的关键区别HashShuffleManager在1.2版本之前是默认使用的shuffle版...原创 2018-09-08 22:41:18 · 247 阅读 · 0 评论 -
解析spark和mapReduce的区别和优劣
作者:知乎用户 链接:https://www.zhihu.com/question/53354580/answer/307863620 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。首先大数据涉及两个方面:分布式存储系统和分布式计算框架。前者的理论基础是GFS。后者的理论基础为MapReduce。MapReduce框架有两个步骤(MapReduce 框架...转载 2018-09-05 15:28:32 · 7708 阅读 · 0 评论 -
数据倾斜问题
一、数据倾斜的原因:核心原因是reduce段数据分布不均匀,导致少量reduce子任务未完成二、解决方案:2.1调节参数hive.map.aggr = true 在map端部分聚合,相当于combinerhive.groupby.skewindata = true ,数据倾斜的时候进行负载均衡,当选项设定为true,生成的查询计划会有两个MR JOB,map输出的结果集合会随机分不到redu...原创 2019-06-11 15:34:14 · 565 阅读 · 0 评论