- 博客(18)
- 收藏
- 关注
原创 Spark大数据分析案例(pycharm)
美妆商品订单数据存储在CSV文件中,它们都是结构化的数据,Spark SQL要做的工作包括数据清洗和数据预处理两个方面。| D31449| 2019-5-1| S12455| 南区|广西壮族自治区| 百色市| X051| 1236| 203| 250908.0|.withColumn('cust_province', regexp_replace('cust_province','自治区|维吾尔|回族|壮族|省|市','')) \。
2025-05-27 13:40:18
962
原创 Spark离线数据处理实例
prod_sales['订购数量']=prod_sales['订购数量'].apply(lambda x :x.strip('个') if isinstance(x,str) else x)prod_sales['订购单价']=prod_sales['订购单价'].apply(lambda x :x.strip('元') if isinstance(x,str) else x)prod_sales['订单日期']=prod_sales['订单日期'].astype('datetime64')
2025-05-27 13:39:15
494
原创 Spark应用部署模式实例(Local、Spark on YARN、Spark Standalone模式)
hadoop中YARN的工作节点上的代理,负责容器生命周期管理,并监控资源使用情况(如CPU、内存、磁盘、网络等)。#hadoop中HDFS的数据存储节点,负责存储实际的数据块,并响应来自客户端或 NameNode 的读写请求。#hadoop中HDFS的名称节点(核心组件),管理文件系统的命名空间,并控制客户端对文件的访问。SparkSubmit # pyspark命令启动的进程,实际上就是启动了一个Spark应用程序。#hadoop中YARN的资源经理(主控服务),负责集群资源管理和调度应用的任务。
2025-05-27 13:33:18
406
原创 搭建spark伪分布集群
2.更改了主机名,还需要修改/etc/hosts文件,在这个文件设定了IP地址与主机名的对应关系,类似DNS域名服务器的功能。3.修改spark相关配置文件,包括spark-env.sh和slave两个文件。5.重启spark集群 出现worker和master表示成功。7.在浏览器输入:http://vm01:8080/ 查看。1.先查看虚拟机的默认名称,将其修改为vm01。4.将localhost改为vm01 保存退出。
2025-05-27 13:30:26
227
原创 pyspark、Jupter Notebook、pycharm安装和测试
在Jupyter Notebook页面中编写代码的方式,与普通的python编程环境中基本一样,唯一不同的是,在代码执行之前,必须先运行一次findspark.init()方法,只需在当前Jupyter Notebook页面中执行一次即可,不用重复执行。执行下面的命令将PyCharm安装包文件解压到/usr/local目录,然后切换到安装目录,执行bin目录下面的pycharm.sh脚本启动PyCharm集成开发环境。◇ pyspark库是通过pip命令安装的,针对的是Python3.6语言环境。
2025-05-27 13:28:21
996
原创 DStream数据源读取(文件数据流&Kafka数据流)
4.再新打开一个Linux终端窗体,切换到~/streaming目录,使用echo命令依次在logfile子目录中创建1.txt和 2.txt文件,同时观察运行代码的终端窗体所发生的变化。8.保存所做的修改并退出vi编辑器,在运行代码之前需要确保Kafka已经启动,且已通过上一节的步骤创建了mytopic主题,可在终端窗体中输入以下命令进行确认。12.随后在消息生产者窗体中输入一些包含单词的字符串,这样运行的Spark应用程序就会收到消息单词并将所含单词的词频信息统计出来。= "") # 过滤空行。
2025-05-27 13:22:54
924
原创 DStream输出操作
4.保存以上代码并退出编辑器,确保nc服务端在监听9999端口,然后在Linux终端窗体中通过spark-submit命令将NetworkWordCountSave.py程序提交到Spark运行,然后在nc服务端输入文字内容(打开两个终端窗口,在上面窗口中输入)6.查看主目录中的streaming文件夹,里面出现了很多以output-开关的子目录,其中保存的就是不同批次时间点的数据文件。ssc = StreamingContext(sc, 2) # 批处理间隔2秒。# 词频统计结果保存到文件系统。
2025-05-27 13:18:48
327
原创 DStream转换操作(基于更新状态&滑动窗口)
5.Spark在运行时默认会产生大量日志信息,此时可在Spark的conf目录中通过log4j.properties配置文件设定全局的运行日志级别,或在代码中使sc.setLogLevel()方法设定当前应用程序的运行日志级别,可以是WARN、ERROR、INFO、DEBUG、ALL等几种。4.根据输出结果可以看出,通过updateStateByKey算子统计的词频,都是在之前批次的中间统计结果基础上累积的数值,而不是从最开始的单词重复计算一遍后的数值。DStream转换操作。
2025-05-27 13:16:07
538
原创 Spark Rdd练习
rdd4 = rdd3.filter(lambda x : x[0]=="12" and x[1]=="女").map(lambda x : (x[1],x[5])).reduceByKey(lambda a,b:a+b).filter(lambda x:x[1]>150)# 转为 ( '宋江',[('chinese',50),('math',60),('english',70)] )# 转为 ('宋江', {'chinese': 50, 'math': 60, 'english': 70})
2025-05-27 13:11:30
523
原创 Kafka安装与测试 & Netcat网络测试工具
8.接下来对kafka进行简单的测试,在第一个终端窗口中创建mytopic主题,并发送几条测试消息,然后在第二个终端窗口获取mytopic主题收到的消息并显示。1.开启两个终端,左边充当监听9999端口的服务端,右边充当链接服务器的客户端,双方互发数据会在对方上显示。5.查看正在运行的Java进程(ctrl+C 跳出正在运行的程序)如果后续操作失败(记得删除原先的解压包 再进行后续操作)Ubuntu系统附带Netcat网络工具文件名为nc。有QuorumpeerMain才表示成功。6.启动kafka服务。
2025-05-27 13:09:50
282
原创 spark 知识总结
Row(id='12', name='宋江', age=25, gender='男', object='chinese', score=50), Row(id='12', name='宋江', age=25, gender='男', object='math', score=60)]rdd = sc.parallelize([1,2,3,6,5,4,6,12,23]).groupBy(lambda x:x%3) #将元素分成3组,第一组x%3==0,第二组x%3==1,第三组x%3==2。
2025-05-27 13:06:09
496
原创 Spark上安装MySQL
准备链接mysql所需的信息,用户名,密码,数据库驱动类名,包括mysql连接地址,主机,端口号,数据库名,数据以append方式追加,并输出。准备好要用的数据库和表,先连接到数据库服务,然后创建一个people数据库以及people_info表,并在表里面添加一条数据。进入Downloads把spark sql连接mysql的连接JDBC的jar包复制在spark的目录Downloads下。再插入有关的10条数据进去,记录保存在mysql里,首先创建一个DataFrame。安装完毕,使用之前先初始化。
2025-05-27 12:21:50
152
原创 Jupyter远程密码设置和访问
1.打开.jupyter/jupyter_notebook_config.py文件,找到并修改以下配置项。(根据上图文件位置,找到文件并打开)。这会在用户主目录下生成.jupyter/jupyter_notebook_config.py文件。确保两次密码输入一致,输入确认的密码后,密码会被加密并保存到配置文件中。关闭当前运行的Jupyter Notebook,然后在终端重新启动。在浏览器输入 http://(你的ip地址):8888,即可访问。1.生成配置文件(如果尚未生成配置文件,请先运行下面的命令)。
2025-05-27 12:19:10
466
原创 Ubuntu20.04安装MySQL 8.0最新版
mysql-client_8.0.27-1ubuntu20.04_amd64.deb mysql-community-client_8.0.27-1ubuntu20.04_amd64.deb , 要安 装的是第⼀个不带 community 的这个 ( 因为之前安装了 community 版本还是报这个错,安装 mysql-community-server_8.0.27-1ubuntu20.04_amd64.deb 这个包。以上的依赖都安装完后,就可以安装 server 了。client-core包安装。
2025-05-27 12:16:46
972
原创 TopN问题分析和单元实践练习
比如,文件的原始内容是四行字符串(即"1111"、"2222"、"3333"、"4444"),得到的新 RDD 里面的元素应为(1111, 1111, 3333, 2222)。[("张婷","女",19,"2019 级"),("李婉","女",20, "2019 级")("刘思思","男",22,"2018 级")](1)有一个元组(1,2,3,4,5),请使用 Spark 的 map()将其转换为一系列元组的集合:(0,1,1), (0,4,2),提示:先 sortBy(),再 filter()。
2025-05-27 12:13:07
583
原创 Spark环境搭建与配置
Spark组建的下载地址:通过网盘分享的文件:soft链接pwd=2wvh提取码: 2wvh如果前期安装过程有错,可以删除虚拟机重装,先关闭虚拟机,点击上方虚拟机,点击管理,再点击从磁盘中删除,点击确定就可以了。考虑到本虚拟机要运行hadoop和spark等程序,内存数量必须要2GB以上,不然会出现蓝屏或者崩溃现象。
2025-03-11 15:40:53
1347
1
原创 RDD转换行动操作和词频统计
2.4.2 (13).keys和values操作(keys and values operations)2)如果是对一个空的RDD执行first()方法的话,因为不存在任何元素,此时会提示错误信息。2)Spark将集合数据分配到了多个CPU核上去并行执行,无法保证输出按原有的数字位置顺序。2)这几个方法的调用分别是rdd数据集的最大、最小、和、平均值,它们都是数值类型。2.4.2(14).mapValues和flatMapValues操作。2)take()相比collect()就是可以指定返回的元素个数。
2025-03-11 15:26:52
512
原创 Spark RDD常用操作
1 使用parallelize()方法从普通集合元素创建RDD。6 Spark官方对textFile()方法的功能定义如下。2.4.2(2) flatMap转换数据。2.4.1(1) 从集合元素创建RDD。
2025-03-11 14:23:30
339
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅