
大数据
文章平均质量分 72
coding如逆水行舟
这个作者很懒,什么都没留下…
展开
-
《深入理解Elasticsearch》问答式学习-基本认识
基本认识Elasticsearch:权威指南如何索引文档通过使用 index API ,文档可以被 索引 —— 存储和使文档可被搜索。 但是首先,我们要确定文档的位置。正如我们刚刚讨论的,一个文档的 _index 、 _type 和 _id 唯一标识一个文档。 我们可以提供自定义的 _id 值,或者让 index API 自动生成。使用自定义IDPUT /website/blog/123{ "title": "My first blog entry", "text": "Just tr原创 2020-08-24 21:53:07 · 322 阅读 · 0 评论 -
spark hive 任务优化浅谈
spark hive 任务优化浅谈数据倾斜数据倾斜的表现问题查找问题解决拆数据合数据预计算其他零零散散的任务优化技巧在日常的etl开发的过程中,不管是使用spark,或者是hive来做开发,经常会遇见任务跑的特别慢,或者任务出现oom,或者数据量并不大,但是任务就是跑的特别慢等等情况。关于任务的优化,我将自己工作中用到的一些小的trick分享出来。数据倾斜数据倾斜是什么?数据倾斜是在计算数...原创 2020-01-19 23:21:09 · 473 阅读 · 0 评论 -
hadoop fs -put 做增量上传
最近遇到一个case,对按照每个小时对数据从A地区的s3数据区搬运到B地区的集群上,整个流程如下:A地区Amazon S3数据区->B地区Amazon S3数据区->B地区服务器缓存区->B地区HDFS集群。由于A地区的公网连接不稳定,所以先同步到B地区的Amazon S3数据区在上传到HDFS中。 将B地区服务器缓存区的数据全部hadoop fs -put就可以了,当...原创 2018-07-16 12:00:18 · 11332 阅读 · 0 评论 -
kafka权威指南-第一章问答式学习
最近要阅读kafka权威指南这本书,我决定换一种方法来阅读技术类书籍,通过提问的方法。问题列表如下 1.kafka是什么? kafka是一种分布式的,基于发布/订阅的消息系统。设计的初衷是处理持续数据流的组件,kafka将数据看成持续变化和不断增长的流,在kafka中可以发布和订阅消息流,并把它们保存起来,进行处理。kafka像一个消息系统,允许发布和订阅消息流。但是与传统的消息系统又有区...原创 2018-08-06 21:33:44 · 470 阅读 · 0 评论 -
kafka权威指南-第三章生产者问答式学习
1.生产者是如何向kafka发送消息的? (1)创建ProducerRecoder对象,该对象包含目标主题和要发送的内容,还可以指定分区和键 (2)发送之前,生产者将键和值对象序列化字节数组 (3)数据被传送到分区器,如果指定了分区,则直接返回指定的分区。如果没有指定分区,分区器会根据ProducerRecoder对象的键来选择一个分区。 (4)选好分区之后,生产者就知道该往哪个主题和...原创 2018-08-06 21:36:15 · 434 阅读 · 0 评论 -
kafka权威指南-第四章kafka消费者问答式学习
1.什么是消费者和消费者群组?消费者就是应用程序向kafka订阅主题,并从订阅的主题上接收消息的应用程序。kafka消费者群群组是一个群体里的消费者订阅的都是同一个主题,每个消费者接收主题一部分分区的信息。当生产者的写入速度大于目前群组的读出速度的时候,可以通过增加消费者群组里面的消费者数量来接收消息。 当消费者数量超过主题的分区数量的时候,有一部分消费者就会呗闲置。2.可以在消...原创 2018-08-06 21:37:52 · 504 阅读 · 1 评论 -
kafka权威指南-第五章深入kafka问答式学习
1.kafka是如何维护集群成员关系?kafka使用走哦keeper来维护集群成员的消息,每一个broker都有一个唯一标识符,这个标识符可以在配置文件中指定,也可以自动生成。当broker启动的时候,他通过创建临时节点把自己的ID注册到走哦keeper中。kafka组件订阅走哦keeper的/brokers/ids的路径,当有broker加入集群或退出集群时,这些组件就可以获得通知。2....原创 2018-08-06 21:40:14 · 519 阅读 · 0 评论 -
kafka权威指南-第六章可靠的数据传递问答式学习
1.kafka从哪些方面保障了构建可靠的应用程序?kafka保证分区消息的顺序只有当消息被写入分区的所有同步副本时(但不一定写入磁盘),才回被认为是已提交的。只要还有一个副本是活跃的,那么已经提交的消息就不会丢失消费者只能读取已经提交的消息。2.除了基本的保障机制,还有其他的保障吗?broker配置复制系数不完全的首领选举最少同步副本生产者发送确认...原创 2018-08-06 21:43:04 · 381 阅读 · 0 评论