
大数据
文章平均质量分 58
superhanliu
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
CDH6.3.2中安装kylin4
1、从kylin官网下载kylin4 因为看到版本4使用spark构建crub存与parquet中,更快更省更先进,且官网写支持cdh6 实际中kylin4要想跑起来还是很不顺利的 过程中还试验了kylin3,效果更差,启动都不行 2、选择1个kerberos认证过的用户,需要有hdfs权限?登录主机 配置kylin的整个目录的own和group都是这个用户(chgown) 配置kylin.propertes,修改其中mysql数据库的配置(前提是要安装好mysql,分配好库和用户权限等)原创 2022-04-02 17:20:25 · 2700 阅读 · 0 评论 -
spark比mapreduce快的原因
1、spark基于有向无环图DAG生成执行计划,他属于1个改进版的MapReduce,降低了很多不必要的shuffle次数,减少了节点之间的数据交换和磁盘IO,中间无需落盘。针对反复使用的数据可以进行内存cache提高加载使用效率 2、spark基于内存,窄依赖任务的数据都在内存中进行交换 3、spark任务启动时会把需要的内存一次性申请到位才真正运行,而mr是更细的粒度,每个子任务真正运行时才申请内存如果申请不到会等待,也会造成延时 ...原创 2021-12-30 16:54:41 · 1268 阅读 · 0 评论 -
大数据学习之——hive小文件合并
学习原文: Hive优化之小文件合并_不积跬步无以至千里-优快云博客_hive合并小文件 解决方案: 1. 在Map输入的时候, 把小文件合并. -- 每个Map最大输入大小,决定合并后的文件数 set mapred.max.split.size=256000000; -- 一个节点上split的至少的大小 ,决定了多个data node上的文件是否需要合并 set mapred.min.split.size.per.node=100000000; -- 一个交换机下split的至少的原创 2021-12-30 16:51:08 · 1347 阅读 · 0 评论 -
大数据学习之——OLAP 核心知识
学习原文:每个大数据工程师都应该知道的OLAP 核心知识点_Storage 谈存储 行存 传统ods中的B+树聚簇索引,page中包含排序好的行,因此一次查询多个以及更新 列存 读取需要的列、跳过无用数据、避免IO放大、存储紧凑、压缩友好 简单类型:使用bitmap编码、字典编码等,付出一些cpu节省很多IO 复杂类型:parquet算法(定义级别DL+重复级别RL) 数值类型:bitshuffle转换 现代OLAP 多采用行列混存方案,采用DataBlock+Header/Foot原创 2021-12-30 16:38:40 · 993 阅读 · 0 评论 -
大数据学习之——实时数仓演进
学习的原文:Flink + TiDB,体验实时数仓之美 实时数仓演进图: storm架构: spout负责数据传递,输出tuples元组,Bolt负责数据转换 storm的不足:无法支持时间窗口 lambda架构: batch layer:全量离线数据,输出batch view real time layer/speed layer: 实时增量数据,输出 realtime view serving layer:将batch view和re...原创 2021-12-30 16:32:46 · 2195 阅读 · 0 评论 -
windows安装hbase步骤
1 下载hbase,需要注意对应的hadopp的版本,参照 http://hbase.apache.org/book.html#configuration查看适配性。如本初安装最高版本hbase-2.1.0,对应hadoop版本为2.7.7。 2 解压hbase到本地硬盘,如E:\hbase-2.1.0 3 修改配置文件 E:\hbase-2.1.0\conf下 hbase-env.cmd...原创 2018-09-28 09:36:37 · 12790 阅读 · 7 评论 -
hbase数据库使用
命令行输入 hbase shell 进入hbase 创建表: create 'test', 'cf' --表示创建表test,字段族(column familly)cf 插入数据: put 'test', 'row1', 'cf:a', 'value1' put 'test', 'row2', 'cf:b', 'value2' put 'test', 'row1', 'cf:b','a...原创 2018-09-28 09:37:53 · 794 阅读 · 0 评论 -
hbase在linux系统上伪分布式安装配置
1 修改hbase-site.xml文件: <property> <name>hbase.cluster.distributed</name> <value>true</value> </property> <property> <name>hbase.rootdir<原创 2018-09-28 09:39:22 · 426 阅读 · 0 评论 -
hbase自定义比较器的开发
hbase查询时内置功能较弱,如果需要自定义查询,则需要开发自定义的比较器。 hbase自定义查询原理是将我们自定义的java比较器通过rpc方式传给hbase服务器来执行,所以涉及到比较器代码的序列化反序列化过程。hbase使用的是google的protocal buf这个工具。 步骤如下: 1 下载protocolbuffers windows版 https://github.com/...原创 2018-09-28 09:51:32 · 575 阅读 · 0 评论