当今云端大数据综合调研
1. 大数据示例
大数据服务涵盖数据源、摄取、存储、处理和服务等方面。大数据来源广泛,典型的有处理系统、消费者数据库、文件、电子邮件、医疗记录等,还包括服务器日志文件以及与制造、工业设备和物联网设备相连的传感器所生成的数据。
大数据的使用场景丰富多样,除了来自相关系统的内部数据,其环境还包含来自消费者、开放市场、交通状况、天气情况、地理位置信息、研究等外部信息。大数据的形式包括图像、视频、音频以及各种代表流式数据的应用程序,这些数据会定期进行处理和收集。
2. 工具和技术
大数据应用包含多种用于数据处理和分析的工具和方法,以下是一些相关工具和技术:
| 工具/技术 | 描述 | 开发者 | 编写语言 |
| — | — | — | — |
| HDFS | 可靠的数据存储 | Google | Java |
| Map reduce | 分布式处理框架 | Google | Java |
| YARN | 资源管理框架 | Apache | Java |
| Spark | 数据并行处理 | Berkeley | Scala |
| Pig | Pig Latin 框架 | Yahoo | Java |
Hadoop Map Reduce 是一种分布式处理框架,用于高效处理大量数据,能将给定信息分解成小块并行处理,映射结果作为任务缩减的输入。HDFS 则以集群形式覆盖所有节点来存储数据,它整合网络文件系统构建更大的文件系统,通过数据复制提高可靠性,以应对节点故障。
3. 大数据分析及其优势
大数据分析
超级会员免费看
订阅专栏 解锁全文
2062

被折叠的 条评论
为什么被折叠?



