
大数据
文章平均质量分 93
马各马它
这个作者很懒,什么都没留下…
展开
-
实时数据系列之kafka connect
Kafka Connect是一种用于在Apache Kafka和其他系统之间以可伸缩的方式可靠地流式传输数据的工具。使用kafka connect可以有效的解决数据的实时交换问题,依托kafka的高性能和弹性扩展,是一个非常好的实时同步技术方案。原创 2022-05-16 23:54:45 · 2116 阅读 · 4 评论 -
kafka系列-入门篇之安装
前言Kakfa经过几年的时间,终于来到了2.x的正式版本。不过在0.8.x的版本就有不少公司已经在生产环境上使用了,也可以说明它在大数据生态圈的地位是非常重要的。经过几个版本的迭代,API发生了一些变化,增加了一些新的特性,这些我们在后面的文章再来慢慢道来吧,今天我们从kafka的安装开始。前期准备我们知道大数据是从Hadoop发展而来,但是kafka的安装还不是必需使用hdfs、mapr...原创 2018-08-07 22:43:52 · 756 阅读 · 0 评论 -
kafka系列-入门篇之基础概念
定义官方对kafka的定义,kafka是一个分布式流平台。听起来让人感觉很陌生,实际使用中,你会觉得kafka是一个发布-订阅的消息队列平台。它和我们熟知的一些消息队列中间件比起来,在功能上更加强大,性能上也是非常高效的。特性可扩展性,kafka搭建在分布式集群服务器上,支持水平无限扩展。容错性,kafka将数据副本存放在多台服务器上,避免服务器故障影响运行。高吞吐量,使用6...原创 2018-08-07 22:45:01 · 656 阅读 · 0 评论 -
spark系列-应用篇之通过yarn api提交Spark任务
前言在工作中,大部使用的都是hadoop和spark的shell命令,或者通过java或者scala编写代码。最近工作涉及到通过yarn api处理spark任务,感觉yarn的api还是挺全面的,但是调用时需要传入很多参数,而且会出现一些诡异的问题。虽然最终使用livy来提交任务,但是通过yarn api提交任务可以帮助使用者更好的理解yarn,而且使用yarn查询任务还是不错的。至于liv...原创 2018-08-23 13:46:33 · 9568 阅读 · 19 评论 -
kafka系列-入门篇之常用命令
前言本文所有的操作都是在MacOS系统上使用。如果是在Linux操作系统下进行实验,使用的命令是相同的;如果是在windows操作系统下进行实验,则需要使用对应的bin/windows目录下的bat文件。Topic新建> bin/kafka-topics.sh --zookeeper zk_host:port/chroot --create --topic m...原创 2018-08-21 00:35:53 · 22438 阅读 · 6 评论 -
spark系列-应用篇之通过livy提交Spark任务
前言上一篇使用yarn api的提交spark任务比较麻烦, 这次我们使用livy来提交spark任务。livy的使用十分简单,功能上比yarn api还要强大,支持提交spark代码片断,session共享安装下载livy0.5.0,下载完成后进行解压。配置conf/livy.conf文件,设置livy.spark.master = yarn。其他的配置项目,可以根据你的需要来配...原创 2018-08-24 00:43:39 · 18230 阅读 · 12 评论 -
kafka系列-进阶篇之消息和offset存储
了解kafka底层的存储原理,可以帮助技术人员在遇到问题时排查问题。原创 2018-09-06 23:48:52 · 17823 阅读 · 3 评论 -
kafka系列-进阶篇之消费组
kafka系列-入门篇之消费组原创 2018-09-28 00:40:06 · 18489 阅读 · 4 评论 -
kafka系列-进阶篇之数据迁移
前言原创 2018-12-01 02:47:18 · 4473 阅读 · 4 评论