
大数据框架
文章平均质量分 87
Therefore丶
大数据与人工智能
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
流系统Spark/Flink/Kafka/DataFlow端到端一致性实现对比(上篇)
一、前言 就作者学习流系统的感受来看, 流系统有2个难点, 第一是end to end consistency,或者说exactly once msg processing; 第二则是event time based window操作。 本来想用一篇文章同时概括和比较这2点,无奈第一点写完, 文章已经长度爆炸。于是分开2篇, 此为上篇, 着重于从分布式系统的本质问题出发, 从最底层的各种"不可能", 和它们的解(比如:consensus协议)开始, 一层一层的递进到高层的流系...原创 2021-11-30 09:05:41 · 529 阅读 · 0 评论 -
Windows下hadoop安装及配置教程
一、首先确保你已经安装了JDK您可以去官网下载JDK1.8.0(注意版本哦~)二、去获取hadoop-2.6.0-cdh5.14.0的镜像:下载链接https://download.youkuaiyun.com/download/u010051036/12720677三、接下来就到了我们的配置过程啦~1.配置环境变量系统变量Java_Home系统变量Hadoop_Home(指向你windows系统中的hadoop文件夹目录)系统变量Path中添加jdk和hadoop,如下配置.原创 2020-08-18 12:14:17 · 2196 阅读 · 0 评论 -
记Spark on Yarn集群错误汇总
我们经常使用Sparkonyarn的模式进行开发和任务调度,但是常常会出现各种错误。 本文将这些问题汇总并提出解决: 先贴一个spark提交任务到yarn的脚本:1、spark找不到main类:20/06/29 09:24:21 ERROR yarn.ApplicationMaster: Uncaught exception: java.lang.ClassNotFoundException: src/main/scala/log_anal...原创 2020-06-29 11:59:29 · 6127 阅读 · 1 评论 -
kafka producer端发送很慢?一招轻松解决
使用场景:kafka发送producer为单实例(使用new kafkaProducer)并且使用同步发送,发送kafka使用线程池执行发送任务,任务队列大小为2000,kafka连接server端使用kerboeros认证。当业务下发从nginx进入,两个tomcat节点进行发送kafka处理,1200TPS时会偶现几次处理时延很长,直接导致nginx504,第一时间打开debug日志,发...原创 2019-04-10 10:45:02 · 18650 阅读 · 0 评论 -
Scala之Akka编写一个简单的RPC框架(模拟多个Worker连接Master)
1,需求概述:(使用Akka模型,实现一个简单的RPC通信框架)1)workder启动时,向master发送注册信息2)mater将workder的注册信息保存(此处用可变的map),并向worker发送注册成功信息3)worker定期向master发送心跳信息, 证明自身还活着4)master定期检测worker,如果workder已经挂掉了,将保存的workder信息给移除...原创 2019-04-23 19:52:45 · 242 阅读 · 0 评论