自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 foreach操作

nums=[8,40,20,30,60,90]rdd1=sc.parallelize(nums)def divide_print(n): n=n//2 print(n)rdd1.foreach(divide_print)

2025-06-07 20:07:41 232

原创 first操作

如果是对一个空的RDD执行first()方法的话,因为不存在任何元素,此时会提示错误消息。

2025-06-07 20:00:56 118

原创 collect操作

rdd1=sc.parallelize(['hello word','hello spark'])words=rdd1.collect()type(words)for line in words: print(line)rdd1=sc.parallelize([1,3,4,2],2)rdd1.collect()rdd2=sc.parallelize([1,3,4,2],2)rdd2.glom().collect()sorted(rdd1.collect())sorted(rdd2.glom().co

2025-06-07 19:54:26 188

原创 max/min/sum/mean操作

分别是rdd数据集的最大、最小、和、平均值。

2025-06-07 19:34:34 121

原创 Linux的免密登录

ssh localhostexitssh-keygen -t rsassh -copy -id localhostssh localhostexit

2025-06-07 19:10:49 222

原创 DataFrame的数据操作(DSL)

data=[(6,"DingDing",18,88,"M"),(3,"kaikai",18,90,"F"),(2,"FeiFei",16,60,None),(4,"JiaJia",24,92,"M"),(1,"MeiMei",20,95,"F")]schema=["id","name","age","score","gender"]df=spark.createDataFrame(data,schema)df1=df.where("age>=18")df1.show()df2=df.where("age>=

2025-06-07 18:54:32 316

原创 在unbuntu中安装中文输入法

(1)添加搜狗输入法仓库:sudo apt install wget gdebi-corewget https://cdn2.ime.sogou.com/dl/index/1666861126/sogoupinyin_4.1.0.1453_amd64.deb(2)安装依赖sudo apt install libqt5qml5 libqt5quick5 libqt5quickwidgets5 qml-module-qtquick2 sudo apt install libgsettings-qt1(3)安装搜

2025-05-25 15:39:58 281

原创 DataFrame的查看

通过foreach()对数据行应用处理数据,如果lambda表达式只有一个传入参数,则可以直接将函数名作为forezch()的参数。显示dataframe的前两行数据,若字段长度超过20个字符,则不截断显示(False表示不截断,True表示截断)定义一个函数,用于执行数据行的具体处理工作,这里将name字段的内容转换成大写字母的形式。显示dataframe的数据记录,默认显示前20行。显示dataframe的前两行的数据记录。获取dataframe的数据行数。返回dataframe的字段名。

2025-05-25 15:31:57 267

原创 DataFrame的基本创建

创建DataFrame数据集,设定schema字段结构信息,这行代码默认会自动推断出各个字段的数据类型。header代表标题行,inferSchema参数代表是否自动推断字段的数据类型。创建元组合集,每个元组代表一个人的信息,相当于数据表的一行。打印输出df对象的schema字段结构信息。显示数据内容,最多默认显示20行。字段定义,包含字段名和字段类型。获取df对象包含的数据行行数。直接读取数据,默认无标题行。

2025-05-25 15:28:08 270

原创 Linux虚拟机的安装

在Linux终端窗口启动后,在左侧任务栏的Linux的图标上点击鼠标右键,点击弹出菜单中的“Add to Favorites”将其固定在任务栏,方便以后使用。鼠标右键点击Ubutu的中间空白处,选择弹出小窗中的“Open in Terminal”启动Linux终端控制。进入spark后,会弹出如下图所示的弹窗,相继点击“skip”,“next”,直至“done”结束。回到Vm,点击左侧的Unbuntu20.04, 点击右侧的“编辑虚拟机设置”点击桌面右上角的电源按钮,,如下图所示操作。

2025-05-25 15:22:03 358

原创 Dstream词频统计

当NetworkWordCount.py程序运行之后,每隔3秒就会处理并输出一次结果。接下来找到前面运行nc服务端的终端窗体,在其中随便输入一些单词,稍等片刻即可在SparkStreaming应用程序中打印词频统计的结果信息。接下来通过spark-submit命令将Spark Streaming应用程序提交到Spark中运行。新建一个NetworkWordCount. py程序。在主目录中创建一个streaming子目录。切换到当前主目录,若已在则忽略。进入streaming 目录。

2025-05-25 14:03:49 171

原创 修改虚拟机的默认名称

hostname sudo hostnamectl set-hostname vm01 vm01(需要 sudo 权限)hostname。

2025-05-06 10:23:32 469

原创 RDD的转换操作

(1)在pyspark窗口输入以下的代码(2)可以根据需要定义各种变换操作(3)对原始RDD元素进行复杂处理的话,要定义一个显式的处理函数在函数结尾处一定要保留一个空行,代表函数定义的结束空行后再按一次enter,出现>>>说明已经退出函数定义模式,可以继续输入其他命令了。(4)map方法可以反复多次使用,从而得到一系列新的RDD数据集。

2025-04-29 10:55:00 374

原创 RDD的创建

pysparkpyspark输入(parallelize()方法用于将本地集合转换为分布式数据集)(输完rdd1.后注意连续在键盘上敲两次tab键)3)创建RDD1.从集合元素创建RDD(1)使用parallelize()方法凑够普通集合元素创建RDD#从列表创建 示例#从元组创建 示例#从集合创建 示例(2)在parallelize()方法中设定分区参数基本语法:rdd=sc.parallelize(collection,numSlices)

2025-04-29 09:50:34 253

原创 安装并测试kafka

nc:服务端l:listenk:keep连接到服务器9999端口nc服务端和客户端可以互发消息测试完毕后,按快捷键快捷键结束nc客户端,保留服务端窗口。

2025-04-26 19:00:25 1330

原创 如何在Linux上安装mysql

链接:https://pan.quark.cn/s/1e1a12bba977提取码:uer4。(1)以linux操作系统的root权限执行mysql中的root用户。1.下载后将离线安装包放在虚拟机的Downloads文件夹下。1.下载后将离线安装包放在虚拟机的Downloads文件夹下。(2)设置mysql自己的root账户和密码,并使之生效。(1)输入 sudo apt update;(登录账户为mysql中的root用户)(安装时保证磁盘空间充足)(3)等待mysql的安装。(3)等待安装源的更新。

2025-04-07 23:11:24 458

安装并测试kafka-kafka安装包

安装并测试kafka-kafka安装包

2025-04-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除