丨Apricity丨-优快云博客

原创 Apache Atlas元数据最全资料

第1章介绍atlas 是apache下的大数据的元数据管理和数据治理平台，是Hadoop社区为解决Hadoop生态系统的元数据治理问题而产生的开源项目，它为Hadoop集群提供了包括数据分类、集中策略引擎、数据血缘、安全和生命周期管理在内的元数据治理核心能力。支持对hive、storm、kafka、hbase、sqoop等进行元数据管理以及以图库的形式展示数据的血缘关系。优势（能复用哪些功能）1、搜索：能通过某个业务字段搜索此业务字段涉及到的业务线，可能是多条业务线。2、血统：数据的血缘.

2020-09-23 17:07:10 6532

原创 HDFS多目录配置

在hdfs-site.xml文件中添加多目录配置，配置名称dfs.datanode.data.dir，值写对应的目录硬盘位置，中间逗号隔开即可。配置好后需要重启集群配置才能生效。<property> <name>dfs.datanode.data.dir</name><value>file:///${hadoop.tmp.dir...

2020-03-29 00:04:09 500

原创分布式唯一Id（雪花算法——snowflake）

给大家分享分布式唯一id——雪花算法以及雪花算法的改进版1.雪花算法介绍2.传统分布式雪花算法java版3.python版本4.Snowflake 的其他变种5.异常情况讨论6.改进版snowflake1.雪花算法介绍Snowflake 生成的 unique ID 的组成 (由高位到低位):41 bits: Timestamp (毫秒级)10 bi...

2019-12-11 10:06:12 1771

原创最全的JedisUtils工具类

import java.util.List;import java.util.Map;import java.util.Set;//import org.apache.log4j.Logger;import redis.clients.jedis.Jedis;import redis.clients.jedis.JedisPool;import redis...

2019-03-14 14:17:17 8358 2

原创 Spark数据倾斜的完美解决

数据倾斜解决方案数据倾斜的解决，跟之前讲解的性能调优，有一点异曲同工之妙。性能调优中最有效最直接最简单的方式就是加资源加并行度，并注意RDD架构（复用同一个RDD，加上cache缓存）。相对于前面，shuffle、jvm等是次要的。6.1、原理以及现象分析6.1.1、数据倾斜怎么出现的在执行shuffle操作的时候，是按照key，来进行values的数据的输出、拉取和聚合的。同一个key的valu...

2018-05-18 16:54:08 16243 5

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 Apache Atlas元数据 最全资料

原创 HDFS多目录配置

原创 分布式唯一Id（雪花算法——snowflake）

原创 最全的JedisUtils工具类

原创 Spark数据倾斜的完美解决

空空如也

空空如也

原创 Apache Atlas元数据最全资料

原创分布式唯一Id（雪花算法——snowflake）

原创最全的JedisUtils工具类