
大数据仓库
文章平均质量分 67
尹忠政
奋斗的年纪
展开
-
水塘抽样解析(详细)
水塘抽样解析什么是水塘抽样(参考百度百科)水塘抽样是一系列的随机算法,其目的在于从包含n个项目的集合S中选取k个样本,其中n为一很大或未知的数量,尤其适用于不能把所有n个项目都存放到内存的情况。最常见例子为[Jeffrey Vitter](https://baike.baidu.com/item/Jeffrey Vitter)在其论文中所提及的算法R。算法步骤(参考百度百科)参照Dictionaryof Algorithms and Data Structures所载的O(n)算法,包含以下步骤(假原创 2021-09-24 00:33:52 · 389 阅读 · 0 评论 -
Flume自定义clickhouse sink
Flume自定义clickhouse sinkCommonConf.javapackage com.tbl.flume.conf;public class CommonConf { public static final String TIME_FIELD = "time_field"; public static final String TOPIC = "topic"; public static final String TOPIC_PREFIX = "topic_pr原创 2021-09-18 17:51:23 · 547 阅读 · 0 评论 -
Flume 采集配置
Flum 采集配置安装使用CDH安装存在的问题Timed out before HDFS call was made. Your hdfs.callTimeout might be set too low or HDFS calls are taking too long.增加hdfs的超时时间 tier1.sinks.ods_hdfs_sink.hdfs.callTimeoutChannelFullException: Space for commit to queue couldn原创 2021-09-18 17:50:07 · 255 阅读 · 0 评论 -
Oozie开发记录
oozie开发文档文章目录oozie开发文档总结oozie开放文档设置时区,cdh修改 oozie-site.xmloozie.processing.timezoneGMT+0800oozie通过cdh方式部署时,oozie的依赖没有上传至hdfs,需要我们手动上传cd /opt/cloudera/parcels/CDH/lib/oozie/oozie-sharelib-yarnsu hdfshdfs -dfs -mkdir -p /user/oozie/share/hdfs原创 2021-09-16 23:12:08 · 160 阅读 · 0 评论