- 博客(11)
- 收藏
- 关注
原创 一文详解MapReduce的工作机制
MapReduce是一个分布式计算框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。主要由两部分组成:编程模型和运行时环 境。其中,编程模型为用户提供了非常易用的编程接口,用户只需要像编写串行程序 一样实现几个简单的函数即可实现一个分布式程序,而其他比较复杂的工作,如节点 间的通信、节点失效、数据切分等,全部由MapReduce运行时环境完成,用户无须 关心这些细节。
2024-12-13 21:12:16
1191
原创 MapReduce基本介绍
MapReduce是面向大数据并行处理的计算模型、框架和平台。MapReduce是一个基于集群的高性能并行计算平台(Cluster Infrastructure)。MapReduce是一个并行计算与运行软件框架(Software Framework)。MapReduce是一个并行程序设计模型与方法(Programming Model & Methodology)。MapReduce将复杂的、运行于大规模集群上的并行计算过程高度地抽象到了两个函数:Map和Reduce。
2024-12-13 21:01:10
873
原创 MapReduce 案例
数据源:/chenzhengyou/mapreduce/wordcount/input/idea.input。输出源:/chenzhengyou/mapreduce/wordcount/output/test01。运行MapReduce:[root@czy-1 hadoop-2.5.0]#2.3、封装map和reduce。
2024-12-13 12:46:56
392
原创 数据可视化图形绘制:从入门到实践
在大数据时代,离不开数据的处理和分析,这次来介绍一下数据可视化,在之后的文章中使用的工具都是Apache ECharts,它是一个基于 JavaScript 的开源可视化图表库。请利用python绘制正弦函数曲线。关键技术:采用Matplotlib包Pyplot模块的plot函数绘制曲线图。
2024-12-09 15:06:53
1216
原创 MapReduce: 从入门到实践的全面指南
MapReduce 是一种编程模型,用于处理和生成大规模数据集。它通过两个主要步骤——Map(映射)和 Reduce(归约)——来处理数据。
2024-11-18 15:11:39
386
原创 Python数据分析从入门到实践
一、什么是python数据分析python 数据分析是一种使用 python 语言处理、分析和可视化数据以获取洞察力的过程。其优势包括:强大的库(pandas、numpy、matplotlib);灵活性;社区支持。python 数据分析广泛应用于金融、医疗保健、零售和制造业中。其步骤包括:数据获取;数据预处理;数据分析;结果呈现。入门 python 数据分析,建议先学习 python 基础,然后安装必需库并学习数据科学概念。
2024-10-30 11:02:55
1071
原创 Python数据结构分析(增删改查)
JupyterNotebook是以网页形式打开,可以在网页页面中直接编写代码和运行代码,代码的运行结果也会在代码块下显示的程序;如在编码过程中需要编写说明文档,可在同一个页面中直接编写,便于作及时的说明和解释。1.1 组成部分① 网页应用网页应用即基于网页形式的、结合了编写说明文档、数学公式、交互计算和其他富媒体形式的工具。简言之,网页应用是可以实现各种功能的工具。② 文档。
2024-06-05 10:32:03
1155
原创 mongoDB基础操作
MongoDB 是一种高性能、开源的 NoSQL 数据库系统,由 C++ 编写而成。它以其独特的数据存储和查询机制在现代应用开发中获得了广泛应用,尤其是适用于需要处理大量非结构化或半结构化数据的场景。MongoDB 旨在为 Web 应用程序提供一个可扩展的高性能数据存储解决方案,尤其适合大数据量、高并发访问以及数据结构不固定的应用场景。
2024-04-28 09:45:01
513
原创 MongoDB安装部署(基于windows平台)
MongoDB 是由C++语言编写的,是一个基于分布式文件存储的开源数据库系统。在高负载的情况下,添加更多的节点,可以保证服务器性能。MongoDB 旨在为WEB应用提供可扩展的高性能数据存储解决方案。MongoDB 将数据存储为一个文档,数据结构由键值(key=>value)对组成。MongoDB 文档类似于 JSON 对象。字段值可以包含其他文档,数组及文档数组。
2024-04-21 23:52:26
823
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人