Spinuieyo-优快云博客

原创 foreach操作

nums=[8,40,20,30,60,90]rdd1=sc.parallelize(nums)def divide_print(n): n=n//2 print(n)rdd1.foreach(divide_print)

2025-06-07 20:07:41 232

原创 first操作

如果是对一个空的RDD执行first()方法的话，因为不存在任何元素，此时会提示错误消息。

2025-06-07 20:00:56 118

rdd1=sc.parallelize(['hello word','hello spark'])words=rdd1.collect()type(words)for line in words: print(line)rdd1=sc.parallelize([1,3,4,2],2)rdd1.collect()rdd2=sc.parallelize([1,3,4,2],2)rdd2.glom().collect()sorted(rdd1.collect())sorted(rdd2.glom().co

2025-06-07 19:54:26 188

原创 max/min/sum/mean操作

分别是rdd数据集的最大、最小、和、平均值。

2025-06-07 19:34:34 121

原创 Linux的免密登录

ssh localhostexitssh-keygen -t rsassh -copy -id localhostssh localhostexit

2025-06-07 19:10:49 222

原创 DataFrame的数据操作（DSL）

data=[(6,"DingDing",18,88,"M"),(3,"kaikai",18,90,"F"),(2,"FeiFei",16,60,None),(4,"JiaJia",24,92,"M"),(1,"MeiMei",20,95,"F")]schema=["id","name","age","score","gender"]df=spark.createDataFrame(data,schema)df1=df.where("age>=18")df1.show()df2=df.where("age>=

2025-06-07 18:54:32 316

原创在unbuntu中安装中文输入法

（1）添加搜狗输入法仓库：sudo apt install wget gdebi-corewget https://cdn2.ime.sogou.com/dl/index/1666861126/sogoupinyin_4.1.0.1453_amd64.deb（2）安装依赖sudo apt install libqt5qml5 libqt5quick5 libqt5quickwidgets5 qml-module-qtquick2 sudo apt install libgsettings-qt1（3）安装搜

2025-05-25 15:39:58 281

原创 DataFrame的查看

通过foreach（）对数据行应用处理数据，如果lambda表达式只有一个传入参数，则可以直接将函数名作为forezch()的参数。显示dataframe的前两行数据，若字段长度超过20个字符，则不截断显示（False表示不截断，True表示截断）定义一个函数，用于执行数据行的具体处理工作，这里将name字段的内容转换成大写字母的形式。显示dataframe的数据记录，默认显示前20行。显示dataframe的前两行的数据记录。获取dataframe的数据行数。返回dataframe的字段名。

2025-05-25 15:31:57 267

原创 DataFrame的基本创建

创建DataFrame数据集，设定schema字段结构信息，这行代码默认会自动推断出各个字段的数据类型。header代表标题行，inferSchema参数代表是否自动推断字段的数据类型。创建元组合集，每个元组代表一个人的信息，相当于数据表的一行。打印输出df对象的schema字段结构信息。显示数据内容，最多默认显示20行。字段定义，包含字段名和字段类型。获取df对象包含的数据行行数。直接读取数据，默认无标题行。

2025-05-25 15:28:08 270

原创 Linux虚拟机的安装

在Linux终端窗口启动后，在左侧任务栏的Linux的图标上点击鼠标右键，点击弹出菜单中的“Add to Favorites”将其固定在任务栏，方便以后使用。鼠标右键点击Ubutu的中间空白处，选择弹出小窗中的“Open in Terminal”启动Linux终端控制。进入spark后，会弹出如下图所示的弹窗，相继点击“skip”，“next”，直至“done”结束。回到Vm,点击左侧的Unbuntu20.04, 点击右侧的“编辑虚拟机设置”点击桌面右上角的电源按钮，，如下图所示操作。

2025-05-25 15:22:03 358

原创 Dstream词频统计

当NetworkWordCount.py程序运行之后，每隔3秒就会处理并输出一次结果。接下来找到前面运行nc服务端的终端窗体，在其中随便输入一些单词，稍等片刻即可在SparkStreaming应用程序中打印词频统计的结果信息。接下来通过spark-submit命令将Spark Streaming应用程序提交到Spark中运行。新建一个NetworkWordCount. py程序。在主目录中创建一个streaming子目录。切换到当前主目录，若已在则忽略。进入streaming 目录。

2025-05-25 14:03:49 171

原创修改虚拟机的默认名称

hostname sudo hostnamectl set-hostname vm01 vm01（需要 sudo 权限）hostname。

2025-05-06 10:23:32 469

原创 RDD的转换操作

（1）在pyspark窗口输入以下的代码（2）可以根据需要定义各种变换操作（3）对原始RDD元素进行复杂处理的话，要定义一个显式的处理函数在函数结尾处一定要保留一个空行，代表函数定义的结束空行后再按一次enter，出现>>>说明已经退出函数定义模式，可以继续输入其他命令了。(4)map方法可以反复多次使用，从而得到一系列新的RDD数据集。

2025-04-29 10:55:00 374

原创 RDD的创建

pysparkpyspark输入（parallelize()方法用于将本地集合转换为分布式数据集）（输完rdd1.后注意连续在键盘上敲两次tab键）3)创建RDD1.从集合元素创建RDD(1)使用parallelize（）方法凑够普通集合元素创建RDD#从列表创建示例#从元组创建示例#从集合创建示例(2)在parallelize()方法中设定分区参数基本语法：rdd=sc.parallelize(collection,numSlices)

2025-04-29 09:50:34 253

原创安装并测试kafka

nc：服务端l：listenk：keep连接到服务器9999端口nc服务端和客户端可以互发消息测试完毕后，按快捷键快捷键结束nc客户端，保留服务端窗口。

2025-04-26 19:00:25 1330

原创如何在Linux上安装mysql

链接：https://pan.quark.cn/s/1e1a12bba977提取码：uer4。（1）以linux操作系统的root权限执行mysql中的root用户。1.下载后将离线安装包放在虚拟机的Downloads文件夹下。1.下载后将离线安装包放在虚拟机的Downloads文件夹下。(2)设置mysql自己的root账户和密码，并使之生效。（1）输入 sudo apt update;（登录账户为mysql中的root用户）(安装时保证磁盘空间充足）（3）等待mysql的安装。（3）等待安装源的更新。

2025-04-07 23:11:24 458

2402_85896723的博客