大数据
文章平均质量分 77
qq_37863962
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
impala笔记
Impala1、Impala简介1、优缺点优点Impala不需要把中间结果写入磁盘,省掉了大量的I/O开销。Impala抛弃了MapReduce ,impala直接通过相应的服务进程来进行作业调度,使⽤了类似于传统的MPP数据库技术,⼤⼤提⾼了查询的速度。,从而省掉不必要的shuffle、sort等开销。通过使用LLVM来统一编译运行时代码,避免了为支持通用编译而带来的不必要开销。用C++实现,做了很多有针对性的硬件优化,例如使用SSE指令。使用了支持Data locality的I/O调度原创 2021-07-06 21:18:56 · 546 阅读 · 1 评论 -
hive笔记
hive了解Hive是基于Hadoop的一个数据仓库工具,可以将 结构化的数据文件 映射为一张表.Hive本质是:将 SQL 转换为 MapReduce 的任务进行运算底层由HDFS来提供数据存储可以将Hive理解为一个:将 SQL 转换为 MapReduce 任务的工具数据仓库的目的:构建面向分析的、集成的数据集合;为企业提供决策支持数据仓库本身不产生数据,数据来源与外部存储了大量数据,对这些数据的分析和处理不可避免的用到HiveHive的优点学习成本低。Hive提供了类似SQL的查询原创 2021-07-06 01:55:42 · 1237 阅读 · 0 评论 -
大数据学习笔记
1、初期准备1、linux 常用命令https://blog.youkuaiyun.com/qq_37863962/article/details/115676200?spm=1001.2014.3001.55012、hadoop 环境搭建https://editor.youkuaiyun.com/md/?articleId=117042414(比较乱)3、hadoop 学习1、hadoop 2.0https://editor.youkuaiyun.com/md?not_checkout=1&articleId=1170原创 2021-06-01 23:30:24 · 225 阅读 · 3 评论 -
hadoop 2.0
hadoop 2.0原创 2021-06-01 23:28:45 · 461 阅读 · 0 评论
分享