
大数据
JeremyJiaming
知其然,知其所以然。
展开
-
HDFS 分布式存储基石
HDFS 分布式存储基石HDFS简介HDFS是Hadoop 分布式文件系统。所处角色基本概念基于JAVA实现的一个分布式文件系统基于unix/linux是Hadoop最重要的核心组件支持顺序写入,而非随机定位读写HDFS前提和设计目标存储超大文件HDFS 适合存储大文件,单个文件大小通常在百MB以上HDFS适合存储海量文件硬件容错基于普通机器搭建,硬件错误...原创 2019-03-01 11:23:23 · 389 阅读 · 0 评论 -
Flume 海量日志收集利器
Flume 海量日志收集利器关于日志收集服务器日志收集服务器日志是大数据系统中最主要的数据来源之一服务器日志可能包含的信息访问信息系统信息其他业务信息基于服务器日志的应用业务仪表盘:PV、UV等线上查错:错误日志查询系统监控:调用链、接口访问统计等其他数据应用服务器日志的特点:不间断,流式产生数据量大,信息量大源头分散日志采集系统的一般架构...原创 2019-03-01 21:17:19 · 618 阅读 · 0 评论 -
MapReduce(一)
用户行为分析 MapReduce(一)MapReduce简介什么是MapReduce?是一种大规模数据处理的编程模型源自于2004年Google发布的论文MapReduce in Hadoop开源社区实现版本,核心代码使用Java实现MapReduce计算场景数据查找分布式GrepWeb访问日志分析词频统计网站PV UV统计TOP K问题...原创 2019-03-06 14:21:41 · 353 阅读 · 0 评论 -
实践:Flume同步信息到HDFS
实践:Flume同步信息到HDFS环境介绍 本次实战基于cdh5.8.5,flume 1.8。实战背景 应用程序通过log4j记录日志信息(用户ip,访问url,请求方式,状态码信息,时间戳),记录到服务器上(地址:/data/flume/log)。通过flume组件将不断更新的日志信息传递给hdfs做离线处理,kafka做实时处理。 当然我们本次先演示flume-hdfs的过程。...原创 2019-03-07 16:38:32 · 1023 阅读 · 0 评论