
大数据
文章平均质量分 58
superhanliu
这个作者很懒,什么都没留下…
展开
-
CDH6.3.2中安装kylin4
1、从kylin官网下载kylin4因为看到版本4使用spark构建crub存与parquet中,更快更省更先进,且官网写支持cdh6实际中kylin4要想跑起来还是很不顺利的过程中还试验了kylin3,效果更差,启动都不行2、选择1个kerberos认证过的用户,需要有hdfs权限?登录主机配置kylin的整个目录的own和group都是这个用户(chgown)配置kylin.propertes,修改其中mysql数据库的配置(前提是要安装好mysql,分配好库和用户权限等)原创 2022-04-02 17:20:25 · 2680 阅读 · 0 评论 -
spark比mapreduce快的原因
1、spark基于有向无环图DAG生成执行计划,他属于1个改进版的MapReduce,降低了很多不必要的shuffle次数,减少了节点之间的数据交换和磁盘IO,中间无需落盘。针对反复使用的数据可以进行内存cache提高加载使用效率2、spark基于内存,窄依赖任务的数据都在内存中进行交换3、spark任务启动时会把需要的内存一次性申请到位才真正运行,而mr是更细的粒度,每个子任务真正运行时才申请内存如果申请不到会等待,也会造成延时...原创 2021-12-30 16:54:41 · 1251 阅读 · 0 评论 -
大数据学习之——hive小文件合并
学习原文:Hive优化之小文件合并_不积跬步无以至千里-优快云博客_hive合并小文件解决方案:1. 在Map输入的时候, 把小文件合并.-- 每个Map最大输入大小,决定合并后的文件数set mapred.max.split.size=256000000;-- 一个节点上split的至少的大小 ,决定了多个data node上的文件是否需要合并set mapred.min.split.size.per.node=100000000;-- 一个交换机下split的至少的原创 2021-12-30 16:51:08 · 1312 阅读 · 0 评论 -
大数据学习之——OLAP 核心知识
学习原文:每个大数据工程师都应该知道的OLAP 核心知识点_Storage谈存储行存传统ods中的B+树聚簇索引,page中包含排序好的行,因此一次查询多个以及更新列存读取需要的列、跳过无用数据、避免IO放大、存储紧凑、压缩友好简单类型:使用bitmap编码、字典编码等,付出一些cpu节省很多IO复杂类型:parquet算法(定义级别DL+重复级别RL)数值类型:bitshuffle转换现代OLAP多采用行列混存方案,采用DataBlock+Header/Foot原创 2021-12-30 16:38:40 · 965 阅读 · 0 评论 -
大数据学习之——实时数仓演进
学习的原文:Flink + TiDB,体验实时数仓之美实时数仓演进图:storm架构:spout负责数据传递,输出tuples元组,Bolt负责数据转换storm的不足:无法支持时间窗口lambda架构:batch layer:全量离线数据,输出batch viewreal time layer/speed layer: 实时增量数据,输出 realtime viewserving layer:将batch view和re...原创 2021-12-30 16:32:46 · 2173 阅读 · 0 评论 -
windows安装hbase步骤
1 下载hbase,需要注意对应的hadopp的版本,参照 http://hbase.apache.org/book.html#configuration查看适配性。如本初安装最高版本hbase-2.1.0,对应hadoop版本为2.7.7。2 解压hbase到本地硬盘,如E:\hbase-2.1.03 修改配置文件E:\hbase-2.1.0\conf下hbase-env.cmd...原创 2018-09-28 09:36:37 · 12713 阅读 · 7 评论 -
hbase数据库使用
命令行输入 hbase shell 进入hbase创建表:create 'test', 'cf' --表示创建表test,字段族(column familly)cf插入数据:put 'test', 'row1', 'cf:a', 'value1'put 'test', 'row2', 'cf:b', 'value2'put 'test', 'row1', 'cf:b','a...原创 2018-09-28 09:37:53 · 777 阅读 · 0 评论 -
hbase在linux系统上伪分布式安装配置
1 修改hbase-site.xml文件:<property> <name>hbase.cluster.distributed</name> <value>true</value> </property><property> <name>hbase.rootdir<原创 2018-09-28 09:39:22 · 384 阅读 · 0 评论 -
hbase自定义比较器的开发
hbase查询时内置功能较弱,如果需要自定义查询,则需要开发自定义的比较器。hbase自定义查询原理是将我们自定义的java比较器通过rpc方式传给hbase服务器来执行,所以涉及到比较器代码的序列化反序列化过程。hbase使用的是google的protocal buf这个工具。步骤如下:1 下载protocolbuffers windows版https://github.com/...原创 2018-09-28 09:51:32 · 559 阅读 · 0 评论