zbxmc-优快云博客

原创 DataFrame和Series是两种主要的数据结构，它们之间有以下主要区别

总的来说，Series是DataFrame的组成部分之一，它代表着DataFrame中的一列数据，而DataFrame是一个更广泛用途的数据结构，用于表示二维数据，并且可以包含多个Series。DataFrame由多个列组成，每列都是一个Series，每列有自己的名称，并且整个DataFrame有一个行索引和一个列索引。DataFrame是二维的数据结构，类似于表格或电子表格，它由行和列组成，每列可以是不同的数据类型。DataFrame中的每一列都可以有不同的数据类型，但是每列的数据类型必须是相同的。

2024-06-06 22:45:14 1182

原创实验六 Spark机器学习库MLlib编程初级实践

数据集：下载Adult数据集(http://archive.ics.uci.edu/ml/datasets/Adult)，该数据集也可以直接到本教程官网的“下载专区”的“数据集”中下载。//获取训练集测试集（需要对测试集进行一下处理，adult.data.txt的标签是>50K和50K.和

2024-05-13 18:25:51 2942 4

原创实验二 Scala编程初级实践（内有附图）

请将源文件保存为 exercise2-1.scala，在REPL模式下测试运行，测试样例：q=1时，Sn=2；请用脚本的方式编程计算并输出下列级数的前 n 项之和 Sn，直到 Sn 刚好大于或等于 q 为止，其中 q 为大于 0 的整数，其值通过键盘输入。总的来说，完成Scala编程初级实践实验是我学习和掌握Scala编程语言的重要一步，我会继续深入学习和实践，提升自己在Scala编程领域的能力。：通过实验，我熟悉了Scala的基本语法，包括变量声明、函数定义、控制流等。

2024-05-11 18:00:00 1542 1

原创实验三 RDD编程初级实践

假设当前目录为/usr/local/spark/mycode/avgscore，在当前目录下新建一个目录mkdir -p src/main/scala，然后在目录/usr/local/spark/mycode/avgscore/src/main/scala下新建一个avgscore.scala。1.每个输入文件表示班级学生某个学科的成绩，每行内容由两个字段组成，第一个是学生名字，第二个是学生的成绩；编写Spark独立应用程序求出所有学生的平均成绩，并输出到一个新文件中。(小新,88.33)

2024-05-10 08:15:00 895 2

原创实验四 Spark SQL编程初级实践

实验四 Spark SQL编程初级实践

2024-05-09 11:37:02 2784 1

原创实验五 Spark Streaming编程初级实践

注意，上面命令中，“localhost:9092 wordsender 3 5”是提供给KafkaWordProducer程序的4个输入参数，第1个参数“localhost:9092”是Kafka的Broker的地址，第2个参数“wordsender”是Topic的名称，我们在KafkaWordCount.scala代码中已经把Topic名称写死掉，所以，KafkaWordCount程序只能接收名称为“wordsender”的Topic。确保 Kafka 集群正常运行，并且你有权限访问 Kafka 集群。

2024-05-08 18:50:24 3306 1

原创 Python 文件I/O 基本练习

python 文件操作基本练习

2023-11-02 17:01:24 96

weixin_67722961的博客