- 博客(7)
- 收藏
- 关注
原创 DataFrame和Series是两种主要的数据结构,它们之间有以下主要区别
总的来说,Series是DataFrame的组成部分之一,它代表着DataFrame中的一列数据,而DataFrame是一个更广泛用途的数据结构,用于表示二维数据,并且可以包含多个Series。DataFrame由多个列组成,每列都是一个Series,每列有自己的名称,并且整个DataFrame有一个行索引和一个列索引。DataFrame是二维的数据结构,类似于表格或电子表格,它由行和列组成,每列可以是不同的数据类型。DataFrame中的每一列都可以有不同的数据类型,但是每列的数据类型必须是相同的。
2024-06-06 22:45:14
1035
原创 实验六 Spark机器学习库MLlib编程初级实践
数据集:下载Adult数据集(http://archive.ics.uci.edu/ml/datasets/Adult),该数据集也可以直接到本教程官网的“下载专区”的“数据集”中下载。//获取训练集测试集(需要对测试集进行一下处理,adult.data.txt的标签是>50K和50K.和
2024-05-13 18:25:51
2510
2
原创 实验二 Scala编程初级实践(内有附图)
请 将 源 文 件 保 存 为 exercise2-1.scala,在REPL模式下测试运行,测试样例:q=1时,Sn=2;请用脚本的方式编程计算并输出下列级数的前 n 项之和 Sn,直到 Sn 刚好大于或等于 q 为止,其中 q 为大于 0 的整数,其值通过键盘输入。总的来说,完成Scala编程初级实践实验是我学习和掌握Scala编程语言的重要一步,我会继续深入学习和实践,提升自己在Scala编程领域的能力。:通过实验,我熟悉了Scala的基本语法,包括变量声明、函数定义、控制流等。
2024-05-11 18:00:00
1287
1
原创 实验三 RDD编程初级实践
假设当前目录为/usr/local/spark/mycode/avgscore,在当前目录下新建一个目录mkdir -p src/main/scala,然后在目录/usr/local/spark/mycode/avgscore/src/main/scala下新建一个avgscore.scala。1.每个输入文件表示班级学生某个学科的成绩,每行内容由两个字段组成,第一个是学生名字,第二个是学生的成绩;编写Spark独立应用程序求出所有学生的平均成绩,并输出到一个新文件中。(小新,88.33)
2024-05-10 08:15:00
696
2
原创 实验五 Spark Streaming编程初级实践
注意,上面命令中,“localhost:9092 wordsender 3 5”是提供给KafkaWordProducer程序的4个输入参数,第1个参数“localhost:9092”是Kafka的Broker的地址,第2个参数“wordsender”是Topic的名称,我们在KafkaWordCount.scala代码中已经把Topic名称写死掉,所以,KafkaWordCount程序只能接收名称为“wordsender”的Topic。确保 Kafka 集群正常运行,并且你有权限访问 Kafka 集群。
2024-05-08 18:50:24
2916
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人