- 博客(11)
- 收藏
- 关注
原创 深入剖析 Spark 核心转换算子:filter、maptopair 与 groupbykey 的实战应用与优化
filter、maptopair和groupbykey作为 Spark 的核心转换算子,在数据处理的各个环节发挥着关键作用。深入理解其原理、掌握优化技巧,并灵活进行组合应用,是构建高效 Spark 应用的必备技能。随着大数据技术的不断发展,Spark 也在持续优化算子性能与功能,未来将为开发者带来更强大、易用的数据处理能力。
2025-06-21 15:34:27
831
原创 使用Selenium自动化控制Chrome浏览器播放B站视频教程
通过这篇教程,我们学习了如何使用Selenium自动化控制Chrome浏览器来播放B站的视频。从环境准备到代码实现,每一步都进行了详细的讲解。希望这篇教程对你有所帮助!
2025-06-09 12:07:36
618
原创 使用jQuery给图形添加动态效果
jQuery 是一个快速、简洁的 JavaScript 库,它极大地简化了 HTML 文档遍历、事件处理、动画以及与 Ajax 交互的操作。主要目的是让 Web 开发者能够更轻松地使用 JavaScript 进行编程。其核心特性包括:选择器:类似 CSS 的语法用于查找和选择 HTML 元素。DOM 操作:提供方法来添加、删除或修改 HTML 元素。事件处理:简化了绑定和触发事件的过程。动画:支持简单的动画效果,如淡入淡出、滑动等。Ajax:提供了方便的接口进行异步数据请求。
2024-12-09 14:46:22
1109
原创 Hadoop大数据开发基础
与查看目录下的子目录的方法类似,可以使用同样的方法查看一个目录下的所有文件。例如,查看/user/root目录下的所有文件,使用fileStatus(Path f)方法得到一个文件列表,通过遍历该文件列表,判断列表中的元素是不是文件,若是文件则输出文件名,如代码2所示。例如,查看/user/root/目录下的子目录,使用listStatus(Pathf)方法得到一个文件列表,通过遍历该文件列表,判断列表中的元素是不是文件夹,若是文件夹则输出文件夹的名称。如果uri中没有相应的标识,则返回本地文件系统。
2024-11-21 21:04:13
1007
原创 Echarts绘图
ECharts 的设计考虑到了移动设备的适配,支持多种设备和平台,同时提供了丰富的图表动画和交互能力。可以看到每个配置项中还有子配置项,配置项通过这样的树状结构来将各类图形的配置需求整合到各个参数中,我们通过向各个配置项中传递参数来实现各种功能配置。在浏览器中打开该文件,并按F12,调出当前页面的控制台,输入echarts回车,如果有结果如下所示,说明导入echarts库成功。下载好echarts的js包文件后,在使用echarts在html制作图形之前,我们需要在html文件中引入echarts。
2024-10-31 10:39:10
392
原创 大数据分析与应用数据挖掘——分类分析
本节通过介绍朴素贝叶斯算法的基本概念、提出的背景、原理和步骤等,再结合具体的实例,使用Python编程语言进行基于朴素贝叶斯算法的数据分析。
2024-10-30 10:29:38
802
原创 使用seaborn绘制基础图形
由下列的代码的运行结果可知,在销售部已离职的员工中,员工每个月平均工作时长大致集中在两个时间段,分别是125~165小时和210~250小时,其中,在210~250小时时间段中离职的员工相对较多,可能是受加班时长的影响。热力图可用于了解数据集中的变量间是否存在相关关系,分类散点图可以将分类变量的每个级别显示出来,回归拟合图可以判断变量间是否具有相互依赖的定量关系。热力图(Heat Map)通过颜色的深浅表示数据的分布,颜色越浅数据越大,读者可以从中一眼就分辨出数据的分布情况,非常方便。
2024-06-20 20:29:18
1838
原创 MongoDB分片部署
OS:win10MongoDB:4.4.24从图中可以看出,分片集群中主要由三个部分组成,即分片服务器( Shard )、路由服务器( Mongos )以及配置服务器( Config Server )组成。其中,分片服务器有三个,即 Shard1 、Shard2 、 Shard3 ;路由服务器有两个,即 Mongos1 和 Mongos2 ;配置服务器有三个,即主、副、副。主要有如下所述三个主要组件:Shard: 用于存储实际的数据块,实际生产环境中一个shard server 角色可由几台机器组个
2024-05-29 23:10:12
1760
原创 MongoDB副本集部署(windows)
节点启动可能会遇到问题,主要检查端口是否被占用,和路径配置问题。若都没问题则考虑以管理员身份启动cmd。说明:第一个“_id”为副本集名称,“priority”为优先级,数字越大,优先级越高。本教程演示mongodb4.4 副本集部署(一主两从,伪分布式)(data)和日志文件(log)。(明明是主节点,但却显示从节点)每一个节点(实例)都创建对应的。1.切换到admin数据库。说明副本集群部署成功。
2024-05-29 21:59:40
392
原创 MongoDB基本操作
恭喜。您现在已经了解如何使用 JSON 文档构建数据。MongoDB是一个开源文档数据库,提供高性能,高可用性和自动扩展,旨在为WEB应用提供可扩展的高性能数据存储解决方案。MongoDB中的记录是一个文档,它是由字段和值(key=>value)对组成的数据结构。MongoDB文档与JSON对象相似。字段的值可能包括其他文档,数组和文档数组。在mongodb中基本的概念是文档(document)、集合(collection)、数据库(database)。
2024-05-29 20:38:23
1561
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅