- 博客(18)
- 收藏
- 关注
原创 Big Data Introduction
目录背景Concept & definitionOriginUseCase大数据技术大数据计算行业实践用例日志分析处理广告计算反欺诈客户风险风控金融IOT 分析搜索推荐未来发展 背景 Concept & definition Big datais a field that treats ways to analyze, systematically extract information from, o..
2022-02-27 21:33:46
594
原创 工作启动必备清单 checklist
1、shell ,Mac 一般可以安装iterm,然后可以使用 oh my zsh 更加炫酷,效率更高2、VPN,一般公司都会有VPN , 阿里郎 , SEAL 等等3、开发机器,DEVBOX, 譬如字节给每一个员工配置一个VM 开发机器 8core 16G ,有一些不适合运行在Linux上的环境相关的过程可以在开发机完成4、集成开发环境, IDEA, GOLAND, CL ION 等, 个人比较喜欢 jetbrain 全家桶的东西5、git 或者 mercurial 分布式版本管理工具,.
2021-11-28 23:02:17
481
原创 面试总结2021
2021京东一面二面现场面,在北辰A座一面是交叉组面, 考察项目,两个小算法,troubleshooting的方式方法,排查OOM算法是(1、有序数组求固定和 , 2 、有序数组最大字段和)二面应该是组员面试,或者小组长吧:Flink数据join延迟到大问题:Flink的基本原理:Flink 状态托管:Guava的expire 是不是真的删除了:谈谈项目全排列算法:这个没写出来。。。。。。。Amazon先做了一面, 视频面试...
2021-09-29 19:04:31
198
原创 Java hash 31
In aprevious posti pointed out how questions posted in reward based discussions sites likestackoverflow.comnever gets answered satisfactorily. This post is a look atone such feeble answerand makes an effort to explain in more detail a basic question...
2021-08-10 11:54:08
213
原创 Log4j2 滑铁卢 on JVM shutdown hook
现象: 项目中写的缓存服务 , 在启动类中,注册了 关闭程序。 主要通过 slf4j接口输出到log4j2 的log 中观察程序的运行情况~ 早期的版本运行都没有发现任何问题, 但是后来观察到现象是 shutdown hook 注册的线程中的日志可能不打印,也可能打印部分,就是没有全部打印过~第一种可能: 程序的运转有问题, shutdown执行有问题,但是我是通过 system 的TERM 信号量关闭的,通过system.out.println方式和程序的表现都能验证这个方面没有问题的~第二.
2021-08-04 17:44:39
907
1
原创 Flink随笔 Grafana Prometheus 监控
背景上一篇文章介绍了根据flink 官方的metric reporter , 选择influxdb 保存metrics 来监控 flink指标, 因为自己构件grafana dashboard 的经验不多,在grafana dashboards 列表中找到别人导出的一个模版也不是很满足需求,而看到网上大家利用 Grafana + Prometheus 做监控的比较多,所以这篇文章在做一次Flink report 到 Prometheus 的 setup 和使用 。虽然市面上(网上)这些文章很多...
2021-03-23 14:40:34
1780
原创 Flink随笔 Grafana InfluxDB 监控
介绍Flink 提供了很多的metrics ,和reporter ,官方地址:https://ci.apache.org/projects/flink/flink-docs-release-1.12/ops/metrics.html#iohttps://ci.apache.org/projects/flink/flink-docs-release-1.12/deployment/metric_reporters.html#influxdb-orgapacheflinkmetricsinfl...
2021-03-23 12:43:08
1618
3
原创 Flink随笔 FileSystem sink
背景项目中有一个多进程的任务,需要读取 kafka ,对象我们叫他 T, kafka 是T的PB格式, T有KEY 。 任务的目的是将T 专程JSON 交给下游的分析引擎分析。 每天T 的量有几亿条~Flink 的版本是 1.12.1 。特点T 是在 OpenRTB 中记录整个过程的Transaction,同时T 有可能在 transient 状态,是不完整的,所以要判断当前要 emit 的T 是否是完整的,不完整的直接 filter 掉Flink 改写flin...
2021-03-16 17:47:24
1105
原创 SLF4j kafka appender继承ELK 日志分析和监控 logstash配置
背景公司提供比较粗糙的ELK 监控的stack ,目前项目的监控是 collected + grafana 这种。 APP 内日志通过java 的日志门面 SLF4j 滚动输出到日志文件中。集成KAFKA appendermaven<dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka-clients</artifactId> &...
2021-03-08 16:25:11
636
原创 Flink Connector(一) FlinkKafkaConsumer
前言分析基于的版本是Flink 1.12.1 , Kafka 是 2.11 。 下面是在IDEA 里边直接依赖的包的截图 。FlinkKafkaConsumerMaven依赖:<dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-connector-kafka_2.11</artifactId> <version>1...
2021-02-28 23:06:16
5016
6
原创 Spark Example分析总结(一)
目录前言(一)Pi Iteration总结(二)KMeansSpark 例子中的本地实现 :KMeans的Spark 版本总结逻辑回归 LR Logistic regressionLocalSparkLR前言这段时间会做一系列 Spark 的Example 的分析,主要是对于官方提供的例子,对于RDD, Streaming,ML 等相关的例子进行分析,也包括对于平时使用 Spark 应用的场景进行约简之后的pattern。 想进行这次总...
2021-02-27 16:10:25
1024
原创 Clickhouse问题集锦
jdbc error , `failed to respond`2021-02-22 07:31:31,656 ERROR [main] execute clickhouse Query Errorru.yandex.clickhouse.except.ClickHouseUnknownException: ClickHouse exception, code: 1002, host: xxxx, port: 8123; xxxx:8123 failed to respondat ru.yand.
2021-02-24 17:36:18
4521
原创 Flink随笔(三)flink工程模版
Maven Archetype类似Spring project initializer ,根据配置向导可以生成maven的projectsketch,这个模版中定义了pom文件和项目结构,java 代码的demo, 和编译运行所需要的基本的依赖等。Flink Maven Archetypehttps://ci.apache.org/projects/flink/flink-docs-release-1.12/try-flink/datastream_api.htmlFlink 官方文..
2021-02-24 17:25:20
558
原创 Flink随笔(二) SqlClient的配置和使用
Flink SQL ClientFlink’s Table & SQL API makes it possible to work with queries written in the SQL language, but these queries need to be embedded within a table program that is written in either Java or Scala. Moreover, these programs need to be .
2021-02-24 17:10:29
4381
原创 数据管理平台系列之Zeppline使用问题
Invalid SessionHandle ERROR [2021-02-09 01:04:34,654] ({ParallelScheduler-Worker-10} JDBCInterpreter.java[executeSql]:799) - Cannot run show databases;org.apache.hive.service.cli.HiveSQLException: Invalid SessionHandle: SessionHandle [262db461-7ef4-4..
2021-02-09 14:15:01
1082
原创 Flink随笔(一) 野生使用Hadoop yarn,hdfs
组内搭建一个小集群, 10+个节点,因为SRE 权限没给到,想在上边跑一些自己的任务,找了一台能连接到Master 的机器
2021-02-08 17:05:45
689
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人