
大数据学习笔记
文章平均质量分 85
大数据学习的记录
沐风mvp
这个作者很懒,什么都没留下…
展开
-
Hive 主流文件存储格式对比
orc 默认的压缩方式ZLIB比Snappy压缩的还小。在实际的项目开发当中,hive表的数据存储格式一般选择:orc或parquet。由于snappy的压缩和解压缩 效率都比较高,压缩方式一般选择snappy。原创 2022-08-12 15:21:28 · 346 阅读 · 0 评论 -
Hive表的数据压缩和企业级调优
压缩模式评价常见压缩格式http://google.github.io/snappy/On a single core of a Core i7 processor in 64-bit mode, Snappy compresses at about 250 MB/sec or more and decompresses at about 500 MB/sec or more.案例实操:1.4 开启Reduce输出阶段压缩当Hive将输出写入到表中时,输出内容同样可以进行压缩。属性hive.exec.原创 2022-08-12 15:18:26 · 1000 阅读 · 0 评论 -
Hive数据操作DDL、DML及语法
除了distribute by 的功能外,还会对该字段进行排序,所以cluster by = distribute by + sort by。比如按照name属性分为3个桶,就是对name属性值的hash值对3取摸,按照取模结果对数据分桶。==注意:==连接 n个表,至少需要n-1个连接条件。内连接:只有进行连接的两个表中都存在与连接条件相匹配的数据才会被保留下来。一起使用,按照一个或者多个列对结果进行分组,然后对每个组执行聚合操作。Hive支持通常的SQL JOIN语句,但是只支持等值连接,...原创 2022-08-12 11:07:22 · 392 阅读 · 0 评论 -
Hive的复合类型使用说明和练习
array中的数据为相同类型,例如,假如array A中元素[‘a’,‘b’,‘c’],则A[1]的值为’b’map类型中存储key/value类型的数据,后期可以通过[“指定key名称”]访问。t_struct.txt (字段空格分割)t_map.txt (字段空格分割)可以存储不同类型的数据。......原创 2022-08-10 17:06:55 · 170 阅读 · 0 评论 -
Hive数据仓库基础
数据仓库的英文名称为Data Warehouse,可简写为DW或DWH。数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。它出于分析性报告和决策支持的目的而创建。数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应用,这也是为什么叫“仓库”,而不叫“工厂”的原因。数据库与数据仓库的区别实际讲的是OLTP 与 OLAP 的区别。操作型处理,叫联机事务处理 OLTP(On-Line Transaction Pr原创 2022-08-10 17:04:10 · 550 阅读 · 0 评论 -
YARN资源调度
FIFO Scheduler把应用按提交的顺序排成一个队列,这是一个先进先出队列在进行资源分配的时候,先给队列中最头上的应用进行分配资源待最头上的应用需求满足后再给下一个分配,以此类推。FIFO Scheduler是最简单也是最容易理解的调度器,也不需要任何配置,但它并不适用于共享集群。大的应用可能会占用所有集群资源,这就导致其它应用被阻塞。...原创 2022-08-10 11:26:26 · 1030 阅读 · 0 评论 -
分布式计算模型MapReduce
MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思想核心是“分而治之”,适用于大量复杂的任务处理场景(大规模数据处理场景)。即使是发布过论文实现分布式计算的谷歌也只是实现了这种思想,而不是自己原创。Map负责“分”,即把复杂的任务分解原创 2022-08-10 10:45:36 · 312 阅读 · 0 评论 -
hdfs的java API开发
所以我们默认去maven的仓库下载不到,需要自己手动的添加repository去CDH仓库进行下载,以下两个地址是官方文档说明,请仔细查阅。windows中,各版本的hadoop的winutils https://github.com/cdarlint/winutils。:如果没有配置好windows的hadoop的环境变量,在windows下用IDEA编程时,会报以下错误。的问题,所以并没有将所有的jar包托管到maven仓库当中去,而是托管在了CDH自己的服务器上面。 二、工程关联框架源码。...原创 2022-08-06 15:44:02 · 1547 阅读 · 0 评论 -
hdfs的shell命令操作
查看hdfs文件系统中指定目录的文件列表。对比linux命令ls在hdfs文件系统中创建文件向HDFS文件中追加内容查看HDFS文件内容从本地路径上传文件至HDFS在hdfs文件系统中下载文件在hdfs文件系统中创建目录在hdfs文件系统中删除文件在hdfs文件系统中修改文件名称(也可以用来移动文件到目录)在hdfs中拷贝文件到目录递归删除目录列出本地文件的内容(默认是hdfs文件系统)查找文件总结原创 2022-08-06 15:30:52 · 2518 阅读 · 0 评论