- 博客(11)
- 收藏
- 关注
原创 Spark学习之RDD常用算子(Java版)
Spark作为强大的分布式计算框架,通过RDD(弹性分布式数据集)提供高效的数据处理能力。本文介绍了Spark基础程序和常用RDD算子,包括parallelize(并行化创建RDD)、textFile(文件读取)、collect(数据收集)、take(获取前N条数据)、map(一对一转换)、flatMap(扁平化映射)和sortBy(排序)等核心操作。通过Java代码示例展示了如何初始化Spark环境、创建RDD以及运用各种算子进行数据处理,为开发者提供了Spark入门和RDD操作的实用指南。
2025-07-02 20:21:50
894
原创 Java学习易混淆概念、常见问题解决与心得分享
在学习过程中,要善于总结遇到的问题和解决方法。可以写一些技术博客,记录自己的学习心得和经验,这不仅有助于自己复习,也可以帮助其他开发者。总之,学习Java是一个不断积累和实践的过程。只要保持热情,不断学习和探索,就一定能够掌握这门强大的编程语言。以上就是我对Java学习的一些总结和分享,希望对大家有所帮助。如果你对Java学习还有其他问题或心得,欢迎在评论区留言交流。
2025-06-28 18:22:44
953
原创 python数据爬取后的可视化展现mongodb+pyecharts
本文介绍了使用Python连接MongoDB数据库并进行数据可视化分析的方法。首先通过pymongo库读取MongoDB中的招聘数据,转换为Pandas DataFrame后进行数据清洗,包括薪资区间划分、学历统计、城市坐标处理等。然后利用PyEcharts库创建了多种可视化图表:柱状图展示薪资分布,饼图呈现学历结构,Geo地图显示职位城市分布,词云图表现福利关键词。最后将所有图表组合成HTML页面展示。该流程实现了从数据获取、处理到可视化的完整解决方案,为招聘数据分析提供了直观的可视化呈现。
2025-06-19 21:44:44
319
原创 Hadoop完全分布式部署
Hadoop的优势1、高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失。2、高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点。3、高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。4、高容错性:能够自动将失败的任务重新分配。分布式文件系统分布式计算框架资源管理器数据存储和备份映射与规约提高。
2024-12-17 05:38:47
1417
原创 基于Flask框架搭建简易可视化网页
Flask 是一个用 Python 编写的轻量级 Web 应用框架。它是由 Armin Ronacher 开发的,并于 2010 年首次发布。Flask 以其简单性和灵活性而著称,非常适合开发小型到中型的 Web 应用程序。
2024-12-10 00:15:26
2475
原创 爬取豆瓣电影Top250进行数据清洗并存储到MongoDB
pandas,requests,matplotlib,lxml,python爬虫,mongodb数据库,python数据分析,数据可视化,数据预处理
2024-06-25 03:17:30
2313
2
原创 Linux CentOS7下的MongoDB部署启动
MongoDB 7.0.8社区版在Linux CentOS7系统下的安装配置过程。主要内容包括:从官网下载tgz压缩包,解压至/opt/mongodb目录;创建数据存储(db)和日志存储(logs)目录;配置用户环境变量方便启动;通过创建配置文件mongod.conf设置日志路径、数据路径等参数,以守护进程方式启动服务;最后说明了如何通过查看进程和kill命令关闭MongoDB服务。整个安装过程步骤清晰,配有相应命令行操作和截图说明。
2024-06-10 19:41:33
780
原创 MongoDB的基本操作、Python的连接使用
MongoDB的基本使用,包含数据库的创建,集合的增删查改,文档的聚合查询。本地端Python连接MongoDB的简单使用
2024-04-23 01:39:25
1565
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅