- 博客(10)
- 收藏
- 关注
原创 Hadoop核心技术分布式
在生产环境中,Hadoop 通常采用完全分布式安装,即集群部署。Hadoop 具有典型的主从架构,HDFS 的 NameNode 是主节点,DataNode 是从节点;YARN 的 ResourceManager 是主节点,NodeManager 是从节点。在正式部署前,做好规划至关重要,它不仅能指导安装过程,避免失误导致集群启动失败,还方便日后查询进程运行情况。
2024-12-17 10:29:14
776
原创 数据可视化
在当今数字化时代,数据已成为我们理解世界、做出决策的重要依据。然而,面对海量且复杂的数据,如何从中快速提取有价值的信息成为了一项挑战。数据可视化技术应运而生,它将数据以直观、形象的图形展示出来,使我们能够更轻松地洞察数据背后的规律、趋势和关系。在众多的数据可视化工具中,Pyecharts 以其强大的功能和便捷性备受关注。
2024-11-23 22:06:01
849
原创 数据可视化:让数据说话的艺术
数据可视化是一门强大而又富有艺术感的技术,它能够将复杂的数据转化为直观、易懂的图形和图表,帮助我们更好地理解数据、发现规律、做出决策以及有效地沟通数据信息。在实际应用中,我们需要根据数据的特点和分析目的选择合适的可视化图表类型和工具,并遵循数据可视化的设计原则,以创建出高质量、有价值的数据可视化作品。随着数据量的不断增长和数据分析需求的日益复杂,数据可视化将在各个领域发挥越来越重要的作用,成为数据驱动决策的关键环节之一。
2024-11-23 21:11:26
1263
原创 大数据分析与应用:开启数据驱动的新时代
大数据(Big Data),指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据分析平台就是依据企业的数据需求,整合当前主流的、成熟的各种具有不同侧重点的大数据处理分析框架和工具,实现对海量数据的挖掘和分析,满足企业的数据需求。
2024-10-29 22:35:59
1167
原创 MongoDB副本集部署(windows)
每一个分片都应该安装 MongoDB 实例,需要将 bin 文件复制到每个分片中, 并且创建data 文件以及 log 文件存放数据库数据和日志数据。节点启动可能会遇到问题,主要检查端口是否被占用,和路径配置问题。说明:第一个“_id”为副本集名称,“priority”为优先级,数字越大,优先级越高。每一个节点(实例)都创建对应的数据文件(data)和日志文件(log)。本次的教程演示mongodb副本集部署(一主两从,伪分布式)(明明是主节点,但却显示从节点)1.切换到admin数据库。
2024-06-11 10:53:11
501
原创 MongoDB分片部署(windows)
OS:win10MongoDB:4.4.24从图中可以看出,分片集群中主要由三个部分组成,即分片服务器( Shard )、路由服务器( Mongos )以及配置服务器( Config Server )组成。其中,分片服务器有三个,即 Shard1 、Shard2 、 Shard3 ;路由服务器有两个,即 Mongos1 和 Mongos2 ;配置服务器有三个,即主、副、副。主要有如下所述三个主要组件:Shard: 用于存储实际的数据块,实际生产环境中一个shard server 角色可由几台机器组个一个
2024-06-04 21:53:04
1084
原创 通过 python 操作mongodb(windows)
{'_id': ObjectId('664c044a32a3dbc8cddeb491'), 'name': '张三', 'age': 18, 'sex': '男', 'major': '大数据技术'}{'_id': ObjectId('664c044a32a3dbc8cddeb491'), 'name': '张三', 'age': 18, 'sex': '男', 'major': '大数据技术'}
2024-05-28 11:25:52
961
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人