基于Spark Streaming的实时日志分析系统实践 Spark Streaming 在数据平台日志解析功能的应用

最新推荐文章于 2021-08-03 08:41:21 发布

原创

最新推荐文章于 2021-08-03 08:41:21 发布 · 2.3k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#大数据 #分布式 #数据库 #hadoop #spark

本文介绍了基于Spark Streaming构建的实时日志分析系统，用于处理苏宁易购的大量流量日志，应对低延迟、数据不丢失等挑战。系统采用Flume收集日志，Storm进行清洗，Spark Streaming进行准实时指标计算。文章详细讨论了Spark Streaming在指标计算中的应用，特别是NDCG指标的计算和优化，以及系统性能和数据保障措施。

前言

目前业界基于 Hadoop 技术栈的底层计算平台越发稳定成熟，计算能力不再成为主要瓶颈。多样化的数据、复杂的业务分析需求、系统稳定性、数据可靠性，这些软性要求，逐渐成为日志分析系统面对的主要问题。2018 年线上线下融合已成大势，苏宁易购提出并践行双线融合模式，提出了智慧零售的大战略，其本质是数据驱动，为消费者提供更好的服务，苏宁日志分析系统作为数据分析的第一环节，为数据运营打下了坚实基础。

数据分析流程与架构介绍业务背景

苏宁线上、线下运营人员，对数据分析需求多样化、时效性要求越来越高。目前实时日志分析系统每天处理数十亿条流量日志，不仅需要保证：低延迟、数据不丢失等要求，还要面对复杂的分析计算逻辑，这些都给系统建设提出了高标准、高要求。如下图所示：

数据来源丰富：线上线下流量数据、销售数据、客服数据等
业务需求多样: 支撑营销、采购、财务、供应链商户等数据需求

流程与架构

苏宁实时日志分析系统底层数据处理分为三个环节：采集、清洗、指标计算，如图 1 所示。

采集模块：收集各数据源日志，通过 Flume 实时发送 Kafka。
清洗模块：实时接收日志数据，进行数据处理、转换，清洗任务基于 Storm 实现，目前每天处理十亿级别流量数据，经过清洗任务处理后的结构化数据将再次发送到 Kafka 队列
指标计算：从 Kafka 实时接收结构化流量数据，实时计算相关指标，指标计算任务主要分两种：Storm 任务、Spark Streaming 任务，两种方式都有各自的应用场景，其中 Spark Streaming 适合准实时场景，其优点是：吞吐量高、支持标准 SQL、开发简单、支持窗函数计算Storm、Spark 得益于苏宁数据云平台提供的支撑，目前苏宁数据云平台集成了：Hive、Spark、Storm、Druid、ES、Hbase、Kafka 等大数据开发组件，支撑了集团大数据计算、存储需求。

指标计算后数据主要存储到 HBase、Druid 等存储引擎，业务系统读取实时计算好的指标数据，为运营人员提供数据分析服务。

Spark Streaming 在指标分析实践Spark Streaming 介绍

众所周知 Spark 是批处理框架，而 Spark Streaming 借鉴批处理的理念实现的准实时算框架，通过将数据按时间分批处理，实际应用中根据延迟要求合理设置分批间隔，如下图所示。Spark Streaming 支持多种数据源：Kafka、Flume、HDFS、Kenisis 等，平台原生支持写入到 HDFS、常见关系数据库等存储介质。

对比 Storm， Spark Streaming 准实时架构，吞吐量更高，支持 SQL，与 HDFS、数据库等存储介质支持的更好，开发方便，并且支持 Window 特性，能支持复杂的窗口函数计算。

NDCG 指标分析

Normalized Discounted Cumula

最低0.47元/天解锁文章