- 博客(7)
- 收藏
- 关注
原创 Linux上安装MySQL
离线安装要用到mobaxterm_portable。在Ubuntu环境下安装MySQL。测试一下MySQL运行情况。把压缩包拖进去然后解压缩。进入MySQL设置密码。mysql压缩包拖进去。
2025-04-01 10:02:29
109
原创 TopN问题分析
要找出分数最高的前 3 名学生,可以先仅对分数进行排序得到最高的三个分数,再以这三个分数 中的最低分为基准对学生信息进行筛选,最后将筛选出来的学生排序
2025-03-18 11:05:11
195
原创 RDD转换行行动操作和词频统计
数据源: /usr/local/spark/licenses/LICENSE-py4j.txt(也可自己随机创建)take()相比collect()就是可以指定返回的元素个数。通过一个for循环将其打印输出。
2025-03-18 10:17:10
291
原创 RDD的创建和转换操作
1)可以打开一个Linux终端窗体,在其中输入下面的命令启动PySparkShell交互式编程环境。2)在其中输入下面的代码,可以查看RDD类包含的功能方法(在Spark中有一个专门的术语,称为。1)先准备两个文本文件,分别存放在本地磁盘目录和HDFS中(可以新开一个终端或者ctrl+D)(向上的箭头可以输入上一步)4)查看一下所创建的RDD数据集的具体内容(可以每个都看一下改一下标红数字就好了)2)再接着输入下面的代码执行,分析一下出现的结果。1)下面是一个简单的sortBy()的例子。
2025-03-11 10:23:34
822
原创 Spark 大数据环境搭建( Linux 系统安装和配置)
(1)选择典型安装(2)选择“安装程序光盘映像文件(iso)”,点击右侧的浏览按钮, 找到下载好的iso 文件,然后点击下一步。(3)将全名、用户名、密码、确认等几项均设为“spark”, 方便后面使用,然后点击下一步。(4)在命名虚拟机的窗体中,可以设定一下虚拟机名称或直接按默认,然后点击下一步。(5)在指定磁盘容量的窗体中,设定虚拟机使用的最大磁盘大小为60GB,虚拟机文件尺 寸是在使用过程中按需增长的,最大限制为 60GB。
2025-03-04 10:50:54
745
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人