- 博客(16)
- 收藏
- 关注
原创 foreach操作
nums=[8,40,20,30,60,90]rdd1=sc.parallelize(nums)def divide_print(n): n=n//2 print(n)rdd1.foreach(divide_print)
2025-06-07 20:07:41
232
原创 collect操作
rdd1=sc.parallelize(['hello word','hello spark'])words=rdd1.collect()type(words)for line in words: print(line)rdd1=sc.parallelize([1,3,4,2],2)rdd1.collect()rdd2=sc.parallelize([1,3,4,2],2)rdd2.glom().collect()sorted(rdd1.collect())sorted(rdd2.glom().co
2025-06-07 19:54:26
188
原创 Linux的免密登录
ssh localhostexitssh-keygen -t rsassh -copy -id localhostssh localhostexit
2025-06-07 19:10:49
222
原创 DataFrame的数据操作(DSL)
data=[(6,"DingDing",18,88,"M"),(3,"kaikai",18,90,"F"),(2,"FeiFei",16,60,None),(4,"JiaJia",24,92,"M"),(1,"MeiMei",20,95,"F")]schema=["id","name","age","score","gender"]df=spark.createDataFrame(data,schema)df1=df.where("age>=18")df1.show()df2=df.where("age>=
2025-06-07 18:54:32
316
原创 在unbuntu中安装中文输入法
(1)添加搜狗输入法仓库:sudo apt install wget gdebi-corewget https://cdn2.ime.sogou.com/dl/index/1666861126/sogoupinyin_4.1.0.1453_amd64.deb(2)安装依赖sudo apt install libqt5qml5 libqt5quick5 libqt5quickwidgets5 qml-module-qtquick2 sudo apt install libgsettings-qt1(3)安装搜
2025-05-25 15:39:58
281
原创 DataFrame的查看
通过foreach()对数据行应用处理数据,如果lambda表达式只有一个传入参数,则可以直接将函数名作为forezch()的参数。显示dataframe的前两行数据,若字段长度超过20个字符,则不截断显示(False表示不截断,True表示截断)定义一个函数,用于执行数据行的具体处理工作,这里将name字段的内容转换成大写字母的形式。显示dataframe的数据记录,默认显示前20行。显示dataframe的前两行的数据记录。获取dataframe的数据行数。返回dataframe的字段名。
2025-05-25 15:31:57
267
原创 DataFrame的基本创建
创建DataFrame数据集,设定schema字段结构信息,这行代码默认会自动推断出各个字段的数据类型。header代表标题行,inferSchema参数代表是否自动推断字段的数据类型。创建元组合集,每个元组代表一个人的信息,相当于数据表的一行。打印输出df对象的schema字段结构信息。显示数据内容,最多默认显示20行。字段定义,包含字段名和字段类型。获取df对象包含的数据行行数。直接读取数据,默认无标题行。
2025-05-25 15:28:08
270
原创 Linux虚拟机的安装
在Linux终端窗口启动后,在左侧任务栏的Linux的图标上点击鼠标右键,点击弹出菜单中的“Add to Favorites”将其固定在任务栏,方便以后使用。鼠标右键点击Ubutu的中间空白处,选择弹出小窗中的“Open in Terminal”启动Linux终端控制。进入spark后,会弹出如下图所示的弹窗,相继点击“skip”,“next”,直至“done”结束。回到Vm,点击左侧的Unbuntu20.04, 点击右侧的“编辑虚拟机设置”点击桌面右上角的电源按钮,,如下图所示操作。
2025-05-25 15:22:03
358
原创 Dstream词频统计
当NetworkWordCount.py程序运行之后,每隔3秒就会处理并输出一次结果。接下来找到前面运行nc服务端的终端窗体,在其中随便输入一些单词,稍等片刻即可在SparkStreaming应用程序中打印词频统计的结果信息。接下来通过spark-submit命令将Spark Streaming应用程序提交到Spark中运行。新建一个NetworkWordCount. py程序。在主目录中创建一个streaming子目录。切换到当前主目录,若已在则忽略。进入streaming 目录。
2025-05-25 14:03:49
171
原创 修改虚拟机的默认名称
hostname sudo hostnamectl set-hostname vm01 vm01(需要 sudo 权限)hostname。
2025-05-06 10:23:32
469
原创 RDD的转换操作
(1)在pyspark窗口输入以下的代码(2)可以根据需要定义各种变换操作(3)对原始RDD元素进行复杂处理的话,要定义一个显式的处理函数在函数结尾处一定要保留一个空行,代表函数定义的结束空行后再按一次enter,出现>>>说明已经退出函数定义模式,可以继续输入其他命令了。(4)map方法可以反复多次使用,从而得到一系列新的RDD数据集。
2025-04-29 10:55:00
374
原创 RDD的创建
pysparkpyspark输入(parallelize()方法用于将本地集合转换为分布式数据集)(输完rdd1.后注意连续在键盘上敲两次tab键)3)创建RDD1.从集合元素创建RDD(1)使用parallelize()方法凑够普通集合元素创建RDD#从列表创建 示例#从元组创建 示例#从集合创建 示例(2)在parallelize()方法中设定分区参数基本语法:rdd=sc.parallelize(collection,numSlices)
2025-04-29 09:50:34
253
原创 安装并测试kafka
nc:服务端l:listenk:keep连接到服务器9999端口nc服务端和客户端可以互发消息测试完毕后,按快捷键快捷键结束nc客户端,保留服务端窗口。
2025-04-26 19:00:25
1330
原创 如何在Linux上安装mysql
链接:https://pan.quark.cn/s/1e1a12bba977提取码:uer4。(1)以linux操作系统的root权限执行mysql中的root用户。1.下载后将离线安装包放在虚拟机的Downloads文件夹下。1.下载后将离线安装包放在虚拟机的Downloads文件夹下。(2)设置mysql自己的root账户和密码,并使之生效。(1)输入 sudo apt update;(登录账户为mysql中的root用户)(安装时保证磁盘空间充足)(3)等待mysql的安装。(3)等待安装源的更新。
2025-04-07 23:11:24
458
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅