- 博客(5)
- 收藏
- 关注
原创 logstash
何为logstash Logstash 是开源的服务器端数据处理管道,能够同时从多个来源采集数据,转换数据,然后将数据发送到您最喜欢的 “存储库” 中。(我们的存储库当然是 Elasticsearch。) 采集各种样式、大小和来源的数据 数据往往以各种各样的形式,或分散或集中地存在于很多系统中。 Logstash 支持 各种输入选择 ,可以在同一时间从众多常用来源捕捉事件。能够以连续的流式传输方式...
2019-04-03 11:32:45
160
原创 大数据专业名词
常用大数据技术名词通俗解释 Hadoop: 最早出现的大数据的概念就是体现在Hadoop上面,简单理解就是虚拟了一个存储系统,一个文件在多台机器上保存多份,丢失几率很小。由于机器集群可以横向扩充,因此能保存理论上无穷多的文件,因此称为大数据平台。 MapReduce: 在Hadoop存文件的基础上,MapReduce担任处理文件的角色,它读到文件,并把处理文件的任务分成很多子任务,让它们在多台机器...
2018-12-19 15:13:50
1206
原创 大数据面试总结
Hbase的特性以及你怎么设计rowkey和columnFamily ,怎么去建一个table? 因为hbase是列式数据库,列非表schema的一部分,所以在设计初期只需要考虑rowkey 和 columnFamily即可,rowkey有位置相关性,所以如果数据是练习查询的,最好对同类数据加一个前缀,而每个columnFamily实际上在底层是一个文件,那么文件越小,查询越快,所以经常一起查询的...
2018-12-19 15:09:42
264
原创 Flume
flume是一个数据采集工具。他呢有两种形式:flume-ng和flume-og两种形式。flume-og采用的是master结构,为了保证数据一致性我们采用了zookeeper进行管理。而flume-ng采用了取消集中master机制和zookeeper机制,变成了一个纯粹的传输工具。 Flume结构:主要以agent为基本单位。包括source(接收外部数据)channel(传输通道)sink...
2018-12-19 15:00:02
365
原创 Spark常见问题
Spark中常见问题 Spark中的闭包 闭包则是在driver端声明 excutor端引用 闭包一定经过序列化 在函数内部引用了外部一个变量 会发现以下问题: ![在这里插入图片描述](https://img-blog.csdnimg.cn/20181026172745500.jpg?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,s...
2018-10-26 17:39:11
241
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人