- 博客(5)
- 收藏
- 关注
原创 Apache Atlas元数据 最全资料
第1章 介绍atlas 是apache下的大数据的元数据管理和数据治理平台,是Hadoop社区为解决Hadoop生态系统的元数据治理问题而产生的开源项目,它为Hadoop集群提供了包括数据分类、集中策略引擎、数据血缘、安全和生命周期管理在内的元数据治理核心能力。支持对hive、storm、kafka、hbase、sqoop等进行元数据管理以及以图库的形式展示数据的血缘关系。优势(能复用哪些功能)1、搜索:能通过某个业务字段搜索此业务字段涉及到的业务线,可能是多条业务线。2、血统:数据的血缘.
2020-09-23 17:07:10
6208
原创 HDFS多目录配置
在hdfs-site.xml文件中添加多目录配置,配置名称dfs.datanode.data.dir,值写对应的目录硬盘位置,中间逗号隔开即可。配置好后需要重启集群配置才能生效。<property> <name>dfs.datanode.data.dir</name><value>file:///${hadoop.tmp.dir...
2020-03-29 00:04:09
473
原创 分布式唯一Id(雪花算法——snowflake)
给大家分享分布式唯一id——雪花算法以及雪花算法的改进版1.雪花算法介绍2.传统分布式雪花算法java版3.python版本4.Snowflake 的其他变种5.异常情况讨论6.改进版snowflake1.雪花算法介绍Snowflake 生成的 unique ID 的组成 (由高位到低位):41 bits: Timestamp (毫秒级)10 bi...
2019-12-11 10:06:12
1599
原创 最全的JedisUtils工具类
import java.util.List;import java.util.Map;import java.util.Set;//import org.apache.log4j.Logger;import redis.clients.jedis.Jedis;import redis.clients.jedis.JedisPool;import redis...
2019-03-14 14:17:17
8270
2
原创 Spark数据倾斜的完美解决
数据倾斜解决方案数据倾斜的解决,跟之前讲解的性能调优,有一点异曲同工之妙。性能调优中最有效最直接最简单的方式就是加资源加并行度,并注意RDD架构(复用同一个RDD,加上cache缓存)。相对于前面,shuffle、jvm等是次要的。6.1、原理以及现象分析6.1.1、数据倾斜怎么出现的在执行shuffle操作的时候,是按照key,来进行values的数据的输出、拉取和聚合的。同一个key的valu...
2018-05-18 16:54:08
16113
5
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人