物联网大数据编程模型解析
1. Flink 特性概述
Flink 作为一个分布式系统,具有以下显著特性:
- 专用调度与批处理 API :拥有专用调度策略,还有处理批数据集的特定 API。
- 广泛的应用部署 :能与常见的集群资源管理器(如 Hadoop YARN、Apache Mesos 和 Kubernetes)结合,也可作为独立集群运行。它会根据应用配置文件自动从资源管理器识别所需资源来部署应用,若发生故障,会请求新资源替换失败的容器,这些操作通过 REST 调用完成,便于在任何环境集成。
- 可扩展性 :能够运行任意规模的有状态流应用,通过并行化应用将数千个任务分布并在集群中并发执行,能控制几乎无限的 CPU、磁盘、内存和网络 IO 操作。其异步和增量检查点算法可维护大型应用状态,保证最小处理延迟。
- 内存性能影响 :Flink 应用增强了本地状态访问,所有计算通过高效访问内存和磁盘数据结构完成,使用缓存高效且健壮的算法处理内存压力。
2. 基于 SQL 的大数据编程模型需求
在网络中每秒会产生大量数据,商业组织需处理这些数据以获取洞察并生产产品。SQL 是开发者和数据库管理员进行数据处理的工具,但现有企业工具面临大数据量、数据多样性和信息需求增长的挑战,存在响应慢、缺乏实时性、负载冲动和无法处理现代数据类型等问题。即使是共享内存数据库(如 MySQL、PostgreSQL 和 SQL Server)在数据达到 TB 级时也会遇到扩展问题。因此,大数据 SQL 需要实现以下目标
超级会员免费看
订阅专栏 解锁全文
463

被折叠的 条评论
为什么被折叠?



