大数据路线图全解析
一、数据查询
当数据处于可用状态后,下一步就是查询数据以获取所需信息。对于存储在 Oracle、DB2、MySQL、PostgreSQL 等结构化数据库中的结构化数据,我们使用 SQL 进行查询。
- 基本查询操作 :
- 使用 SELECT 等简单命令从表中检索数据。
- 当需要合并多个表的数据时,可使用 JOIN 命令。
- 查询复杂度与优化 :在处理多个表和列时,SQL 查询会变得相当复杂,专业的数据库管理员通常可以优化查询以提高执行效率。在数据密集型应用中,数据存储和用于访问其中数据的查询往往会成为系统的关键部分。
虽然 SQL 查询有时执行速度较慢,但通常比大多数基于 Hadoop 的大数据作业要快,因为 Hadoop 作业是基于批处理的。Hadoop 结合 MapReduce 因能在众多商用服务器上分布式处理海量大数据工作负载,而成为大数据的代名词。不过,习惯使用 SQL 的数据分析师面临的问题是,Hadoop 不支持 SQL 风格的查询,且由于其批处理性质,获取结果需要很长时间。
为解决该问题,一些技术应运而生。例如,Hive 本质上是 Hadoop 的 SQL。如果使用 Hadoop 且需要一个查询接口来访问数据,最初由 Facebook 开发的 Hive 可以提供这样的接口。虽然它与 SQL 不同,但查询方法类似。
二、数据可视化
开发完查询后,通常希望以可视化形式展示数据,仪表盘和可视化工具能满足这一需求。
- <
超级会员免费看
订阅专栏 解锁全文
1048

被折叠的 条评论
为什么被折叠?



