自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 spark中的表格操作

(2)csv文件读取数据创建df。(3)csv写入数据(先备份)(4)json文件的创建。(1)连接MySQL。

2025-04-08 11:24:38 229

原创 Linux上安装MySQL

离线安装要用到mobaxterm_portable。在Ubuntu环境下安装MySQL。测试一下MySQL运行情况。把压缩包拖进去然后解压缩。进入MySQL设置密码。mysql压缩包拖进去。

2025-04-01 10:02:29 109

原创 TopN问题分析

要找出分数最高的前 3 名学生,可以先仅对分数进行排序得到最高的三个分数,再以这三个分数 中的最低分为基准对学生信息进行筛选,最后将筛选出来的学生排序

2025-03-18 11:05:11 195

原创 apache spark(ubuntu)安装中文输入

找到region&language点进去。点击左上角activities。

2025-03-18 10:19:24 94

原创 RDD转换行行动操作和词频统计

数据源: /usr/local/spark/licenses/LICENSE-py4j.txt(也可自己随机创建)take()相比collect()就是可以指定返回的元素个数。通过一个for循环将其打印输出。

2025-03-18 10:17:10 291

原创 RDD的创建和转换操作

1)可以打开一个Linux终端窗体,在其中输入下面的命令启动PySparkShell交互式编程环境。2)在其中输入下面的代码,可以查看RDD类包含的功能方法(在Spark中有一个专门的术语,称为。1)先准备两个文本文件,分别存放在本地磁盘目录和HDFS中(可以新开一个终端或者ctrl+D)(向上的箭头可以输入上一步)4)查看一下所创建的RDD数据集的具体内容(可以每个都看一下改一下标红数字就好了)2)再接着输入下面的代码执行,分析一下出现的结果。1)下面是一个简单的sortBy()的例子。

2025-03-11 10:23:34 822

原创 Spark 大数据环境搭建( Linux 系统安装和配置)

(1)选择典型安装(2)选择“安装程序光盘映像文件(iso)”,点击右侧的浏览按钮, 找到下载好的iso 文件,然后点击下一步。(3)将全名、用户名、密码、确认等几项均设为“spark”, 方便后面使用,然后点击下一步。(4)在命名虚拟机的窗体中,可以设定一下虚拟机名称或直接按默认,然后点击下一步。(5)在指定磁盘容量的窗体中,设定虚拟机使用的最大磁盘大小为60GB,虚拟机文件尺 寸是在使用过程中按需增长的,最大限制为 60GB。

2025-03-04 10:50:54 745 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除