
大数据
文章平均质量分 53
扬大平仔
这个作者很懒,什么都没留下…
展开
-
clickhouse 在货拉拉的应用实践,千亿级别数据实现秒级查询
前言为了解决线上问题定位慢,相应不及时等问题。所以我们决定开发一套智能问题定位系统。对于我们的一些核心系统,每个订单会对应推送多个司机(线上最多达到上千个司机,平均也有几百个司机)。如果要每个司机都记录一条埋点信息那么数据量将会非常庞大,目前埋点数据日均60+亿,一个月接近2000亿数据。这种以司机维度存储数据会存在大量的数据冗余,耗费大量存储等机器资源。并且传统的关系型数据库在动则几十亿到上千亿级别的表上查询,几乎做不到秒级响应。前期我们调研的时候考虑过使用hbase 、druid...原创 2021-09-29 15:48:12 · 4719 阅读 · 4 评论 -
Clickhouse MergeTree 详细解析
https://blog.youkuaiyun.com/vkingnew/article/details/106988056转载 2021-07-16 10:48:58 · 281 阅读 · 0 评论 -
flink 1.9 sink clickhouse
由于flink 1.9 版本的jdbc 有不少ck 类型并不支持,例如Map 类型。故重写了一个clickhouse sink。基本依赖: <!-- https://mvnrepository.com/artifact/ru.yandex.clickhouse/clickhouse-jdbc --> <dependency> <groupId>ru.yandex.clickhouse</groupId>原创 2021-06-23 19:11:13 · 732 阅读 · 0 评论 -
使用Flink写clickhouse
<dependencies> <!-- Apache Flink dependencies --> <!-- These dependencies are provided, because they should not be packaged into the JAR file. --> <dependency> <groupId>org.apache.flink&...转载 2021-06-10 10:01:27 · 1662 阅读 · 0 评论 -
macOS通过docker 安装clickhouse过程
brew install --cask docker// 修改镜像{ "builder": { "gc": { "enabled": true, "defaultKeepStorage": "20GB" } }, "features": { "buildkit": true }, "experimental": false, "debug": true, "registry-mirrors": [ "https://...原创 2021-06-04 18:32:02 · 618 阅读 · 0 评论 -
详解 Flink 容器化环境下的 OOM Killed
https://developer.aliyun.com/article/780954转载 2021-01-29 16:57:42 · 185 阅读 · 0 评论 -
Flink on RocksDB 参数调优指南
1. 背景对于需要保存超大状态(远超于内存容量)的流计算场景来说,目前 RocksDB [1] 是 Flink 平台上官方实现的唯一选择。业界也有使用 Redis 等其他服务作为状态后端的方案,但终究不够成熟,且已被社区否决 [2].基于我们长期的状态调优经验,通过合理的资源分配,RocksDB 方案可以稳定支持上百 GB 甚至上 TB 的总状态量;但是众所周知的是,RocksDB 的可调参数非常繁琐,有上百个之多,且彼此之间还相互影响,非常难以调整。更致命的是,默认参数和配置不当的参数,读写...转载 2021-01-29 10:29:38 · 1086 阅读 · 0 评论 -
记一次 Could not find a suitable table factory for ‘org.apache.flink.table.delegation.ExecutorFactory‘
通过SPI 找不到想要的接口,可以超尝试以下骚操作:先resources目录下面创建META-INF目录,接着在其下面继续创建services目录, 因为找不到的TableFactory的子类都在org.apache.flink.table.factories.TableFactory里配置,所以我们创建这个文件,然后把未能加载的类都放进去,前提要保证你的jar包里面这些类确实存在 如下图,然后重新打包JAR 发不到集群运行。有问题欢迎加微信交流哟:yekepingyy...原创 2020-12-17 18:00:34 · 10258 阅读 · 5 评论 -
Flink 双流join之left join详解,附demo工程
join+window+eventtime如果使用eventtime需要注意的事情比较多,否则会出现十分诡异的不触发计算的情况,直接看如下示例代码public class People { String age; long eventTime; String eventTimeStr; String id; String name; public People(String age, long eventTime, String id, Str原创 2020-11-18 09:58:32 · 2348 阅读 · 0 评论 -
线程日志
public final class ContextHolder { private static ThreadLocalContext context = new ThreadLocalContext(); private String clientID; private String cId; private String sessionId; private long interval; private String packageName; ..原创 2020-10-28 17:43:06 · 155 阅读 · 0 评论 -
flink 1.10 demo
package apps;import org.apache.flink.api.common.functions.FlatMapFunction;import org.apache.flink.api.common.restartstrategy.RestartStrategies;import org.apache.flink.api.common.serialization.SimpleStringSchema;import org.apache.flink.api.java.tuple.原创 2020-07-03 16:38:03 · 361 阅读 · 0 评论 -
Flink Table API & SQL编程指南
https://blog.youkuaiyun.com/jmx_bigdata/article/details/106466273翻译 2020-07-02 20:15:58 · 134 阅读 · 0 评论 -
flink创建视图的几种方式
import org.apache.flink.api.common.typeinfo.BasicTypeInfo;import org.apache.flink.api.java.typeutils.RowTypeInfo;import org.apache.flink.streaming.api.datastream.DataStreamSource;import org.apache.flink.streaming.api.environment.StreamExecutionEnvironm.翻译 2020-07-02 20:15:06 · 2209 阅读 · 0 评论 -
HIVE 相关知识
Hive/HiveSQL常用优化方法全面总结https://cloud.tencent.com/developer/article/1453464https://www.cnblogs.com/smartloli/p/4356660.html翻译 2020-04-22 17:15:42 · 133 阅读 · 0 评论 -
HBase 相关知识
HBase总结(九)Bloom Filter概念和原理https://blog.youkuaiyun.com/lifuxiangcaohui/article/details/39991781原创 2020-04-22 15:57:47 · 699 阅读 · 0 评论 -
kafka 相关知识
Kafka面试题(附答案)https://blog.youkuaiyun.com/qq_28900249/article/details/90240936https://baijiahao.baidu.com/s?id=1647687262480100578&wfr=spider&for=pchttps://blog.youkuaiyun.com/weixin_35720385/article...翻译 2020-04-21 22:06:59 · 217 阅读 · 0 评论 -
Kafka史上最详细原理总结
https://blog.youkuaiyun.com/u013573133/article/details/48142677?utm_medium=distribute.pc_feed_404.none-task-blog-2~default~BlogCommendFromBaidu~Rate-5.control404&depth_1-utm_source=distribute.pc_feed_404.none-task-blog-2~default~BlogCommendFromBaidu~Rate-5.contr转载 2020-04-20 22:23:34 · 180 阅读 · 0 评论 -
Flink on Yarn / K8s 原理剖析及实践
https://cloud.tencent.com/developer/article/1528548翻译 2020-04-15 16:38:57 · 305 阅读 · 0 评论 -
Storm教程:高并发场景下流使用storm实时计算实现用户限流实践
需求: 对于任何一个用户量极大的系统来说做好系统保护是非常有必要的,系统保护可以用服务降级、限流、缓存等方式实现。在最近做的一个需求中需要对一些短时间内访问量很大的用户(主要是针对爬虫)做限流。在一定时间内聚合一次用户访问次数,超过阈值则需要启动限流措施了。限流的实现方式用很多种,我为什么要用storm进行实时计算用户访问次数做限流呢?其实是处于以后需求考虑,做限流只是其中一部分...原创 2019-01-22 15:18:54 · 826 阅读 · 0 评论