
大数据
文章平均质量分 61
小愚就是小小呀
这个作者很懒,什么都没留下…
展开
-
Hive中的表类型
hive中的表类型 hive中是有多种表类型的,可以分为四种:内部表,外部表,分区表,桶表 内部表 内部表是hive默认表类型,表数据默认存储在warehouse目录中,在加载数据的过程中,实际数据会被移动到warehouse目录中,当删除表时,表的数据和元数据将会被同时删除 外部表 建表语句中包含external 的表叫外部表,外部表在加载数据的时候,实际数据并不会移动到warehouse目录中,只是与外部数据建立一个链接(映射关系),数据只是表对hdfs上的某一个目录的引用而已,当删除表定义的时候,数据原创 2021-06-15 17:55:10 · 3221 阅读 · 1 评论 -
Hive VS Mysql
hive 和mysql的对比 项目 hive mysql 数据存储位置 HDFS 本地磁盘 数据格式 用户定义 系统决定 数据更新 不支持 支持 索引 有,但较弱,一般很少用 有,经常使用的 执行 MapReduce Executor 执行延迟 高 低 可扩展性 高 低 数据规模 大 小 数据库 VS 数据仓库 数据库:传统的关系型数据库主要应用在事务处理,例如银行交易之类的场景,数据库支持增删改查这些常见的操作。 数据仓库:主要做一些复杂的分析操作,侧重决策原创 2021-06-15 11:22:39 · 200 阅读 · 1 评论 -
Flume学习笔记
什么是Flume Flume是一个高可用,高可靠,分布式的海量日志采集,聚合和传输的系统,能够有效的收集,聚合,移动大量的日志数据。简单的说Flume是一个很靠谱,很方便,很强的日志采集工具。它的特点是不需要写代码,就可以进行工作。 如下图,这个属于Flume的典型应用场景,使用Flume采集数据,最终存储到HDFS上。 左边的web server表示是一个web项目,web项目会产生日志数据,通过中间的Agent把日志数据采集到HDFS中。其中这个Agent就是我们使用Flume启动的一个代理,它是一个原创 2021-06-08 14:01:28 · 251 阅读 · 0 评论 -
HDFS的常见Shell操作
HDFS介绍 设计思想:用户请求查看数据时候会请求主节点,主节点上面会维护所有数据的存储信息,主节点会把对应数据所在的节点信息返回给用户,然后用户根据数据所在的节点信息去对应的节点去读取数据,这样压力就不会全部在主节点上面。 HDFS是一种适合大文件存储的分布式文件系统,不适合小文件存储,例如,几KB,几M的文件都可以认为是小文件。 hdfs shell 格式如下,url一串内容可以省略,因为hdfs在执行的时候会根据HDOOP_HOME自动识别配置文件中的fs.defaultFS属性。 HDFS基础操作原创 2021-05-19 17:37:35 · 148 阅读 · 0 评论 -
什么是hadoop
什么是Hadoop hadoop是一个适合海量数据的分布式存储和分布式计算的框架。 分布式存储,可以简单理解为存储数据的时候,数据不只存在一台机器上面,它会存在多台机器上面。 分布式计算简单理解,就是由很多台机器并行处理数据。 Hadoop三大核心组件介绍 Hadoop主要包含三大组件:HDPS+MapReduce+YARN。 HDFS负责海量数据分布式存储 YARN主要负责集群资源的管理和调度 MapReduce是一个计算模型,负责海量数据的分布式计算 Hadoop客户端节点 在实际工作中不建议直接原创 2021-05-18 14:11:40 · 4532 阅读 · 0 评论