M_PigWmy-优快云博客

原创 logstash

何为logstash Logstash 是开源的服务器端数据处理管道，能够同时从多个来源采集数据，转换数据，然后将数据发送到您最喜欢的 “存储库” 中。（我们的存储库当然是 Elasticsearch。）采集各种样式、大小和来源的数据数据往往以各种各样的形式，或分散或集中地存在于很多系统中。 Logstash 支持各种输入选择，可以在同一时间从众多常用来源捕捉事件。能够以连续的流式传输方式...

2019-04-03 11:32:45 183

常用大数据技术名词通俗解释 Hadoop: 最早出现的大数据的概念就是体现在Hadoop上面，简单理解就是虚拟了一个存储系统，一个文件在多台机器上保存多份，丢失几率很小。由于机器集群可以横向扩充，因此能保存理论上无穷多的文件，因此称为大数据平台。 MapReduce: 在Hadoop存文件的基础上，MapReduce担任处理文件的角色，它读到文件，并把处理文件的任务分成很多子任务，让它们在多台机器...

2018-12-19 15:13:50 1243

原创大数据面试总结

Hbase的特性以及你怎么设计rowkey和columnFamily ,怎么去建一个table？因为hbase是列式数据库，列非表schema的一部分，所以在设计初期只需要考虑rowkey 和 columnFamily即可，rowkey有位置相关性，所以如果数据是练习查询的，最好对同类数据加一个前缀，而每个columnFamily实际上在底层是一个文件，那么文件越小，查询越快，所以经常一起查询的...

2018-12-19 15:09:42 286

原创 Flume

flume是一个数据采集工具。他呢有两种形式：flume-ng和flume-og两种形式。flume-og采用的是master结构，为了保证数据一致性我们采用了zookeeper进行管理。而flume-ng采用了取消集中master机制和zookeeper机制，变成了一个纯粹的传输工具。 Flume结构：主要以agent为基本单位。包括source（接收外部数据）channel（传输通道）sink...

2018-12-19 15:00:02 395

原创 Spark常见问题

Spark中常见问题 Spark中的闭包闭包则是在driver端声明 excutor端引用闭包一定经过序列化在函数内部引用了外部一个变量会发现以下问题： ![在这里插入图片描述](https://img-blog.csdnimg.cn/20181026172745500.jpg?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,s...

2018-10-26 17:39:11 303

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

M_PigWmy的博客

原创 logstash

原创大数据专业名词

原创大数据面试总结

原创 Flume

原创 Spark常见问题

空空如也

空空如也

原创 logstash

原创 大数据专业名词

原创 大数据面试总结

原创 Flume

原创 Spark常见问题

空空如也

空空如也

原创大数据专业名词

原创大数据面试总结