2501_90817124-优快云博客

原创 Spark大数据分析案例（pycharm）

美妆商品订单数据存储在CSV文件中，它们都是结构化的数据，Spark SQL要做的工作包括数据清洗和数据预处理两个方面。| D31449| 2019-5-1| S12455| 南区|广西壮族自治区| 百色市| X051| 1236| 203| 250908.0|.withColumn('cust_province', regexp_replace('cust_province','自治区|维吾尔|回族|壮族|省|市','')) \。

2025-05-27 13:40:18 962

原创 Spark离线数据处理实例

prod_sales['订购数量']=prod_sales['订购数量'].apply(lambda x :x.strip('个') if isinstance(x,str) else x)prod_sales['订购单价']=prod_sales['订购单价'].apply(lambda x :x.strip('元') if isinstance(x,str) else x)prod_sales['订单日期']=prod_sales['订单日期'].astype('datetime64')

2025-05-27 13:39:15 494

原创 Spark应用部署模式实例（Local、Spark on YARN、Spark Standalone模式）

hadoop中YARN的工作节点上的代理，负责容器生命周期管理，并监控资源使用情况（如CPU、内存、磁盘、网络等）。#hadoop中HDFS的数据存储节点，负责存储实际的数据块，并响应来自客户端或 NameNode 的读写请求。#hadoop中HDFS的名称节点（核心组件），管理文件系统的命名空间，并控制客户端对文件的访问。SparkSubmit # pyspark命令启动的进程，实际上就是启动了一个Spark应用程序。#hadoop中YARN的资源经理（主控服务），负责集群资源管理和调度应用的任务。

2025-05-27 13:33:18 406

原创搭建spark伪分布集群

2.更改了主机名，还需要修改/etc/hosts文件，在这个文件设定了IP地址与主机名的对应关系，类似DNS域名服务器的功能。3.修改spark相关配置文件，包括spark-env.sh和slave两个文件。5.重启spark集群出现worker和master表示成功。7.在浏览器输入：http://vm01:8080/ 查看。1.先查看虚拟机的默认名称，将其修改为vm01。4.将localhost改为vm01 保存退出。

2025-05-27 13:30:26 227

原创 pyspark、Jupter Notebook、pycharm安装和测试

在Jupyter Notebook页面中编写代码的方式，与普通的python编程环境中基本一样，唯一不同的是，在代码执行之前，必须先运行一次findspark.init()方法，只需在当前Jupyter Notebook页面中执行一次即可，不用重复执行。执行下面的命令将PyCharm安装包文件解压到/usr/local目录，然后切换到安装目录，执行bin目录下面的pycharm.sh脚本启动PyCharm集成开发环境。◇ pyspark库是通过pip命令安装的，针对的是Python3.6语言环境。

2025-05-27 13:28:21 996

原创 DStream数据源读取（文件数据流&Kafka数据流）

4.再新打开一个Linux终端窗体，切换到~/streaming目录，使用echo命令依次在logfile子目录中创建1.txt和 2.txt文件，同时观察运行代码的终端窗体所发生的变化。8.保存所做的修改并退出vi编辑器，在运行代码之前需要确保Kafka已经启动，且已通过上一节的步骤创建了mytopic主题，可在终端窗体中输入以下命令进行确认。12.随后在消息生产者窗体中输入一些包含单词的字符串，这样运行的Spark应用程序就会收到消息单词并将所含单词的词频信息统计出来。= "") # 过滤空行。

2025-05-27 13:22:54 924

原创 DStream输出操作

4.保存以上代码并退出编辑器，确保nc服务端在监听9999端口，然后在Linux终端窗体中通过spark-submit命令将NetworkWordCountSave.py程序提交到Spark运行，然后在nc服务端输入文字内容（打开两个终端窗口，在上面窗口中输入）6.查看主目录中的streaming文件夹，里面出现了很多以output-开关的子目录，其中保存的就是不同批次时间点的数据文件。ssc = StreamingContext(sc, 2) # 批处理间隔2秒。# 词频统计结果保存到文件系统。

2025-05-27 13:18:48 327

原创 DStream转换操作（基于更新状态&滑动窗口）

5.Spark在运行时默认会产生大量日志信息，此时可在Spark的conf目录中通过log4j.properties配置文件设定全局的运行日志级别，或在代码中使sc.setLogLevel()方法设定当前应用程序的运行日志级别，可以是WARN、ERROR、INFO、DEBUG、ALL等几种。4.根据输出结果可以看出，通过updateStateByKey算子统计的词频，都是在之前批次的中间统计结果基础上累积的数值，而不是从最开始的单词重复计算一遍后的数值。DStream转换操作。

2025-05-27 13:16:07 538

原创 Spark Rdd练习

rdd4 = rdd3.filter(lambda x : x[0]=="12" and x[1]=="女").map(lambda x : (x[1],x[5])).reduceByKey(lambda a,b:a+b).filter(lambda x:x[1]>150)# 转为 ( '宋江',[('chinese',50),('math',60),('english',70)] )# 转为 ('宋江', {'chinese': 50, 'math': 60, 'english': 70})

2025-05-27 13:11:30 523

原创 Kafka安装与测试 & Netcat网络测试工具

8.接下来对kafka进行简单的测试，在第一个终端窗口中创建mytopic主题，并发送几条测试消息，然后在第二个终端窗口获取mytopic主题收到的消息并显示。1.开启两个终端，左边充当监听9999端口的服务端，右边充当链接服务器的客户端，双方互发数据会在对方上显示。5.查看正在运行的Java进程（ctrl+C 跳出正在运行的程序）如果后续操作失败（记得删除原先的解压包再进行后续操作）Ubuntu系统附带Netcat网络工具文件名为nc。有QuorumpeerMain才表示成功。6.启动kafka服务。

2025-05-27 13:09:50 282

原创 spark 知识总结

Row(id='12', name='宋江', age=25, gender='男', object='chinese', score=50), Row(id='12', name='宋江', age=25, gender='男', object='math', score=60)]rdd = sc.parallelize([1,2,3,6,5,4,6,12,23]).groupBy(lambda x:x%3) #将元素分成3组，第一组x%3==0，第二组x%3==1，第三组x%3==2。

2025-05-27 13:06:09 496

原创 Spark上安装MySQL

准备链接mysql所需的信息，用户名，密码，数据库驱动类名，包括mysql连接地址，主机，端口号，数据库名，数据以append方式追加，并输出。准备好要用的数据库和表，先连接到数据库服务，然后创建一个people数据库以及people_info表，并在表里面添加一条数据。进入Downloads把spark sql连接mysql的连接JDBC的jar包复制在spark的目录Downloads下。再插入有关的10条数据进去，记录保存在mysql里，首先创建一个DataFrame。安装完毕，使用之前先初始化。

2025-05-27 12:21:50 152

原创 Jupyter远程密码设置和访问

1.打开.jupyter/jupyter_notebook_config.py文件，找到并修改以下配置项。（根据上图文件位置，找到文件并打开）。这会在用户主目录下生成.jupyter/jupyter_notebook_config.py文件。确保两次密码输入一致，输入确认的密码后，密码会被加密并保存到配置文件中。关闭当前运行的Jupyter Notebook，然后在终端重新启动。在浏览器输入 http：//（你的ip地址）：8888，即可访问。1.生成配置文件（如果尚未生成配置文件，请先运行下面的命令）。

2025-05-27 12:19:10 466

原创 Ubuntu20.04安装MySQL 8.0最新版

mysql-client_8.0.27-1ubuntu20.04_amd64.deb mysql-community-client_8.0.27-1ubuntu20.04_amd64.deb , 要安装的是第⼀个不带 community 的这个 ( 因为之前安装了 community 版本还是报这个错，安装 mysql-community-server_8.0.27-1ubuntu20.04_amd64.deb 这个包。以上的依赖都安装完后，就可以安装 server 了。client-core包安装。

2025-05-27 12:16:46 972

原创 TopN问题分析和单元实践练习

比如，文件的原始内容是四行字符串（即"1111"、"2222"、"3333"、"4444"），得到的新 RDD 里面的元素应为（1111, 1111, 3333, 2222）。[("张婷","女",19,"2019 级"),("李婉","女",20, "2019 级")("刘思思","男",22,"2018 级")]（1）有一个元组(1,2,3,4,5)，请使用 Spark 的 map()将其转换为一系列元组的集合：(0,1,1), (0,4,2),提示：先 sortBy()，再 filter()。

2025-05-27 12:13:07 583

原创 Spark环境搭建与配置

Spark组建的下载地址：通过网盘分享的文件：soft链接pwd=2wvh提取码: 2wvh如果前期安装过程有错，可以删除虚拟机重装，先关闭虚拟机，点击上方虚拟机，点击管理，再点击从磁盘中删除，点击确定就可以了。考虑到本虚拟机要运行hadoop和spark等程序，内存数量必须要2GB以上，不然会出现蓝屏或者崩溃现象。

2025-03-11 15:40:53 1347 1

原创 RDD转换行动操作和词频统计

2.4.2 (13).keys和values操作(keys and values operations)2）如果是对一个空的RDD执行first()方法的话，因为不存在任何元素，此时会提示错误信息。2）Spark将集合数据分配到了多个CPU核上去并行执行，无法保证输出按原有的数字位置顺序。2）这几个方法的调用分别是rdd数据集的最大、最小、和、平均值，它们都是数值类型。2.4.2(14).mapValues和flatMapValues操作。2）take()相比collect()就是可以指定返回的元素个数。

2025-03-11 15:26:52 512

原创 Spark RDD常用操作

1 使用parallelize()方法从普通集合元素创建RDD。6 Spark官方对textFile()方法的功能定义如下。2.4.2（2） flatMap转换数据。2.4.1（1）从集合元素创建RDD。

2025-03-11 14:23:30 339

2501_90817124的博客