- 博客(9)
- 收藏
- 关注
原创 深入了解 MapReduce
从社交媒体的用户交互数据、电商平台的交易记录,到物联网设备产生的传感器数据,海量的数据源源不断地产生。传统的数据处理方法在面对如此大规模的数据时,往往显得力不从心,因为它们在处理速度、可扩展性和容错性方面存在诸多限制。MapReduce 通过将复杂的大数据处理任务分解为简单的 Map 和 Reduce 两个阶段,让程序员可以更轻松地编写处理大数据的程序,同时利用集群的计算资源来加速数据处理的过程。它的出现使得大规模数据的分布式并行处理变得可行和高效,为大数据时代的数据分析和挖掘提供了重要的技术支撑。
2024-11-18 15:20:45
770
原创 聚类分析实践
一、KMeans 方法算法原理理解学习 KMeans 的基本原理,即通过迭代将数据点分配到 K 个聚类中,使得每个数据点到其所属聚类中心的距离之和最小。了解如何初始化聚类中心、如何进行数据点分配和如何更新聚类中心。超参数调整认识到 K 值(聚类个数)的选择对结果的重要性。通过尝试不同的 K 值,可以观察到聚类结果的变化,学习如何根据实际问题选择合适的 K 值。了解初始聚类中心的选择方法以及其对算法收敛速度和结果的影响。数据预处理的影响体会到数据标准化或归一化对 KMeans 算法的影响。
2024-10-30 14:32:10
710
原创 数据可视化系统
步骤1:使用Bootstrap设计一个网页主页和一个账号密码登录界面,主页只有主页名称和登录按钮两个元素,登录按钮点击登录后能够跳转到路由/login中步骤2:使用Flask框架搭建一个简易的数据可视化系统,预设2个账号密码和相应的2个不同的图形的html文件步骤3:主路由“/”对应网页主页,登录路由“/login”对应账号密码登录界面,另外还有2个图形对应的2个路由步骤4:每个账号对应1个图形,在flask的app.py主程序中编辑登录后处理账号密码的逻辑,使得不同账号登录后跳转到不同的图形页面中。
2024-10-30 11:18:24
737
原创 Python基本画图
Python画图主要用到matplotlib这个库。使用Jupyter Notebook 需要安装一些常用的Python库。除了上述库之外,还有许多其他的Python库可以在Jupyter Notebook 中使用。可以根据需要选择安。Matplotlib是一个用于创建静态、动态和交互式可视化的Python库,它提供了丰富的图表类型和自定义选项。Seaborn是基于Matplotlib的一个高级可视化库,它提供了更美观的统计图表和更简单的接口。
2024-06-26 15:57:32
627
原创 MongoDB副本集部署(windows)
环境准备本教程演示mongodb4.4.24 副本集部署(一主两从,伪分布式)每一个节点(实例)都创建对应的数据文件(data)和日志文件(log)。
2024-04-24 14:33:04
320
1
原创 MongoDB副本集部署
本教程演示mongodb4.4 副本集部署(一主两从,伪分布式)每一个节点(实例)都创建对应的数据文件(data)和日志文件(log)。
2024-04-09 17:06:22
166
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人