- 博客(8)
- 收藏
- 关注
原创 Hadoop 与 Zookeeper 集群搭建
Hadoop 是一个分布式系统基础架构,由 Apache 基金会开发,旨在处理大规模数据集。Hadoop 分布式文件系统(HDFS):一种分布式文件系统,能够将大文件切分成多个块,并存储在集群中的不同节点上。具有高容错性、高吞吐量等特点,适合大规模数据的存储。例如,在一个大型互联网公司中,每天产生的海量用户行为数据可以存储在 HDFS 中。MapReduce 编程模型:用于大规模数据集的并行计算。通过将计算任务分解为 Map(映射)和 Reduce(归约)两个阶段,实现数据的分布式处理。
2024-12-10 22:58:35
1260
原创 解锁数据可视化的奇妙世界
简单来说,数据可视化就是将数据以图形、图表、地图等直观的视觉形式展现出来的技术手段。它可不是简单地把数据变成好看的图片哦,而是通过对数据的合理呈现,能够让人们一眼看清数据的模式、趋势、关系以及异常点等关键信息。想象一下,如果给你一份冗长的销售数据表,上面密密麻麻罗列着各个地区、各个时间段的销售额数字,你可能得花费大量时间去分析对比,才能得出一些基本结论。但要是把这些数据转化成柱状图,不同地区的销售额高低立马一目了然;若是用折线图展示销售额随时间的变化趋势,那销量的起伏情况也能瞬间把握。
2024-12-03 22:33:47
872
原创 探索随机森林 —— 机器学习的璀璨明珠
随着数据量的不断增加和计算能力的不断提高,随机森林在未来的应用前景将更加广阔。随着深度学习等新兴技术的发展,随机森林也可以与这些技术相结合,发挥更大的作用。例如,可以将随机森林作为深度学习模型的一部分,用于特征选择和模型解释,提高深度学习模型的可解释性和稳定性。总之,随机森林作为一种强大的机器学习算法,具有高准确性、强鲁棒性、处理高维数据的能力和易于并行化等众多优点,在各个领域都有着广泛的应用前景。相信在未来,随机森林将继续发挥其重要作用,为数据驱动的决策提供有力支持。
2024-10-22 21:07:23
863
1
原创 深入理解Java程序中的for循环语句
for循环是Java程序设计中经常使用的控制语句之一,它允许我们重复执行一段代码固定的次数或者遍历一个序列的元素。本文将深入探讨Java中的for循环语句,包括其语法、不同类型以及如何在实际编程中高效运用。
2024-06-30 17:19:34
1549
原创 MongoDB副本集群(Windows)
MongoDB的副本集是一组维护相同数据集的MongoDB服务器,提供高可用性和数据冗余。副本集有一个主节点(primary)和多个从节点(secondary),当主节点出现故障时,从节点可以通过选举一个新的主节点来保持服务的高可用性。
2024-06-18 10:17:31
436
原创 (windows)MongoDB分片部署
mongos:通过跨服务器横向划分数据集,每台服务器负责处理自己的数据部分同时不会有一台服务器会负载过重,这样分片就可以支持大数据集和高吞吐量。每一个分片都是一个独立的数据库,所有的分片共同组成单个的逻辑数据库,数据和片的对应关系以及相应的配置信息保存在 "config 服务器 " 上,它会根据管理员设置的 “ 片键 ” 将数据分摊到自己管理的mongod 集群。1.Shard: 每个shard是一个MongoDB实例,用于存储数据的一部分。:这些是存储实际数据的服务器,可以是一个或多个mongod进程。
2024-06-06 22:21:25
1196
原创 Untitled
{'_id': ObjectId('664c044a32a3dbc8cddeb491'), 'name': '张三', 'age': 18, 'sex': '男', 'major': '大数据技术'}{'_id': ObjectId('664c044a32a3dbc8cddeb491'), 'name': '张三', 'age': 18, 'sex': '男', 'major': '大数据技术'}
2024-05-21 11:28:15
963
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人