深入了解Azure数据工厂与Azure数据湖分析:大数据处理与分析的利器
1. Azure数据工厂概述
Azure数据工厂是在Azure中执行ETL(提取、转换和加载)操作的主要工具。通过它,可以完成以下几个重要的用例场景:
- 更新参考数据 :确保数据的时效性和准确性,为后续分析提供可靠的数据基础。
- 重新训练Azure机器学习模型 :随着数据的不断更新,及时对模型进行训练,以提高模型的准确性和性能。
- 将数据从Azure Blob存储移动到Azure数据湖存储 :实现数据的集中存储和管理,方便后续的分析和处理。
此外,还可以使用纯JSON编辑数据工厂作业,以精细控制作业的执行。同时,通过使用参数创建定期作业,能够实现数据移动操作的自动化,例如按周执行。
2. Azure数据湖存储简介
Azure数据湖存储是一个强大且几乎无限制的数据存储解决方案。它允许以原始形式持久化存储数据,并对结构化和非结构化数据进行转换和分析作业,从而创建新的分析、汇总和预测。这为现代企业快速实现数据价值提供了有力支持。
3. Azure数据湖分析(ADLA)简介
Azure数据湖分析(ADLA)是微软基于Apache YARN构建的分布式分析服务。其主要目标是使大数据分析变得更加简单和高效,让用户专注于编写、运行和管理分析作业,而无需关注分布式计算基础设施的操作。
3.1 ADLA的核心功能
- 动态扩展
超级会员免费看
订阅专栏 解锁全文
15

被折叠的 条评论
为什么被折叠?



