基于HBase和Spark构建企业级数据处理平台

本文介绍了如何基于Apache HBase和Spark构建企业级数据处理平台,涉及金融风控、用户画像、实时数据处理等多个场景。利用Spark的高速分析能力与HBase的分布式存储,实现流式ETL、在线查询和离线分析。平台架构包括数据入库、在线查询和离线分析,通过Spark Streaming处理实时数据,并结合HBase与Solr实现一站式解决方案。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

场景需求和挑战

面临的场景

金融风控

  • 用户画像库

  • 爬虫抓取信息

  • 反欺诈系统

  • 订单数据

个性化推荐

  • 用户行为分析

  • 用户画像

  • 推荐引擎

  • 海量实时数据处理

社交Feeds

  • 海量帖子、文章

  • 聊天、评论

  • 海量实时数据处理

时空时序

  • 监控数据

  • 轨迹、设备数据

  • 地理信息

  • 区域分布统计

  • 区域查询

大数据

  • 维表和结果表

  • 离线分析

  • 海量实时数据存储

新的挑战

Apache HBase(在线查询) 的特点有:

  • 松散表结构(Schema free)

  • 随机查询、范围查询

  • 原生海量数据分布式存储

  • 高吞吐、低延迟

  • 在线分布式数据库

  • 多版本、增量导入、多维删除

面临的新的挑战:

  • 流式及批量入库

  • 复杂分析

  • 机器学习、图计算

  • 生态及联邦分析

选择Spark的原因

 

  • 快:通过query的执行优化、Cache等技术,Spark能够对任意数据量的数据进行快速分析。逻辑回归场景比Hadoop快100倍

  • 一站式:Spark同时支持复杂SQL分析、流式处理、机器学习、图计算等模型,且一个应用中可组合上面多个模型解决场景问题

  • 开发者友好:同时友好支持SQL、Python、Scala、Java、R多种开发者语言

  • 优秀的生态:支持与Ka=a、HBase、Cassandra、MongoDB、Redis、MYSQL、SQL Server等配合使用

平台机构及案例

一站式数据处理平台架构

 

  • 数据入库:借助于Spark Streaming,能够做流式ETL以及增量入库到HBase/Phoenix。

  • 在线查询:HBase/Phoenix能够对外提供高并发的在线查询

  • 离线分析及算法:如果HBase/Phoenix的数据需要做复杂分析及算法分析,可以使用Spark的SQL、机器学习、图计算等

典型业务场景:爬虫+搜索引擎

 

  • 性能:流吞吐 20万条/秒

  • 查询能力:HBase自动同步到solr对外提供全文检索的查询

  • 一站式解决方案:Spark服务原生支持通过SQL读取HBase 数据能力进行ETL,Spark + HBase +Solr一站式数据处理平台

典型业务场景:大数据风控系统

 

  • Spark同时支持事中及事后风控

  • Spark友好对接HBase、RDS、MongoDB多种在线库

典型业务场景:构建数据仓库(推荐、风控)

 

  • 毫秒级识别拦截代充订单,并发十万量级

  • Spark优秀的计算能力:Spark基于列式存储Parquet的分析在数据量大的情况下比Greenplum集群有10倍的性能提升

  • 一站式解决方案:Spark服务原生支持通过SQL读取 HBase SQL(Phoenix)数据能力

  • 聚焦业务:全托管的Spark服务保证了作业运行的稳定性,释放运维人力,同时数据工作台降低了spark作业管理成本

原理及最佳实践

Spark API的发展经历了RDD、DataFrame、DataSet

 

Spark Streaming采用的是Micro-Batch方式处理实时数据。

 

作业堆积、延迟高、并发不够?

  • 每批次的并发:调大kafka的订阅的分区、spark.streaming.blockInterval

  • 代码热点优化:查看堆栈、broadcast、代码优化

Spark流式处理入库HBase

 

Micro-Batch Processing:100ms延迟 ,Continuous Processing:1ms延迟

Spark HBase Connector的一些优化

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值