自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 Spark大数据分析案例(pycharm)

美妆商品订单数据存储在CSV文件中,它们都是结构化的数据,Spark SQL要做的工作包括数据清洗和数据预处理两个方面。| D31449| 2019-5-1| S12455| 南区|广西壮族自治区| 百色市| X051| 1236| 203| 250908.0|.withColumn('cust_province', regexp_replace('cust_province','自治区|维吾尔|回族|壮族|省|市','')) \。

2025-05-27 13:40:18 962

原创 Spark离线数据处理实例

prod_sales['订购数量']=prod_sales['订购数量'].apply(lambda x :x.strip('个') if isinstance(x,str) else x)prod_sales['订购单价']=prod_sales['订购单价'].apply(lambda x :x.strip('元') if isinstance(x,str) else x)prod_sales['订单日期']=prod_sales['订单日期'].astype('datetime64')

2025-05-27 13:39:15 494

原创 Spark应用部署模式实例(Local、Spark on YARN、Spark Standalone模式)

hadoop中YARN的工作节点上的代理,负责容器生命周期管理,并监控资源使用情况(如CPU、内存、磁盘、网络等)。#hadoop中HDFS的数据存储节点,负责存储实际的数据块,并响应来自客户端或 NameNode 的读写请求。#hadoop中HDFS的名称节点(核心组件),管理文件系统的命名空间,并控制客户端对文件的访问。SparkSubmit # pyspark命令启动的进程,实际上就是启动了一个Spark应用程序。#hadoop中YARN的资源经理(主控服务),负责集群资源管理和调度应用的任务。

2025-05-27 13:33:18 406

原创 搭建spark伪分布集群

2.更改了主机名,还需要修改/etc/hosts文件,在这个文件设定了IP地址与主机名的对应关系,类似DNS域名服务器的功能。3.修改spark相关配置文件,包括spark-env.sh和slave两个文件。5.重启spark集群 出现worker和master表示成功。7.在浏览器输入:http://vm01:8080/ 查看。1.先查看虚拟机的默认名称,将其修改为vm01。4.将localhost改为vm01 保存退出。

2025-05-27 13:30:26 227

原创 pyspark、Jupter Notebook、pycharm安装和测试

在Jupyter Notebook页面中编写代码的方式,与普通的python编程环境中基本一样,唯一不同的是,在代码执行之前,必须先运行一次findspark.init()方法,只需在当前Jupyter Notebook页面中执行一次即可,不用重复执行。执行下面的命令将PyCharm安装包文件解压到/usr/local目录,然后切换到安装目录,执行bin目录下面的pycharm.sh脚本启动PyCharm集成开发环境。◇ pyspark库是通过pip命令安装的,针对的是Python3.6语言环境。

2025-05-27 13:28:21 996

原创 DStream数据源读取(文件数据流&Kafka数据流)

4.再新打开一个Linux终端窗体,切换到~/streaming目录,使用echo命令依次在logfile子目录中创建1.txt和 2.txt文件,同时观察运行代码的终端窗体所发生的变化。8.保存所做的修改并退出vi编辑器,在运行代码之前需要确保Kafka已经启动,且已通过上一节的步骤创建了mytopic主题,可在终端窗体中输入以下命令进行确认。12.随后在消息生产者窗体中输入一些包含单词的字符串,这样运行的Spark应用程序就会收到消息单词并将所含单词的词频信息统计出来。= "") # 过滤空行。

2025-05-27 13:22:54 924

原创 DStream输出操作

4.保存以上代码并退出编辑器,确保nc服务端在监听9999端口,然后在Linux终端窗体中通过spark-submit命令将NetworkWordCountSave.py程序提交到Spark运行,然后在nc服务端输入文字内容(打开两个终端窗口,在上面窗口中输入)6.查看主目录中的streaming文件夹,里面出现了很多以output-开关的子目录,其中保存的就是不同批次时间点的数据文件。ssc = StreamingContext(sc, 2) # 批处理间隔2秒。# 词频统计结果保存到文件系统。

2025-05-27 13:18:48 327

原创 DStream转换操作(基于更新状态&滑动窗口)

5.Spark在运行时默认会产生大量日志信息,此时可在Spark的conf目录中通过log4j.properties配置文件设定全局的运行日志级别,或在代码中使sc.setLogLevel()方法设定当前应用程序的运行日志级别,可以是WARN、ERROR、INFO、DEBUG、ALL等几种。4.根据输出结果可以看出,通过updateStateByKey算子统计的词频,都是在之前批次的中间统计结果基础上累积的数值,而不是从最开始的单词重复计算一遍后的数值。DStream转换操作。

2025-05-27 13:16:07 538

原创 Spark Rdd练习

rdd4 = rdd3.filter(lambda x : x[0]=="12" and x[1]=="女").map(lambda x : (x[1],x[5])).reduceByKey(lambda a,b:a+b).filter(lambda x:x[1]>150)# 转为 ( '宋江',[('chinese',50),('math',60),('english',70)] )# 转为 ('宋江', {'chinese': 50, 'math': 60, 'english': 70})

2025-05-27 13:11:30 523

原创 Kafka安装与测试 & Netcat网络测试工具

8.接下来对kafka进行简单的测试,在第一个终端窗口中创建mytopic主题,并发送几条测试消息,然后在第二个终端窗口获取mytopic主题收到的消息并显示。1.开启两个终端,左边充当监听9999端口的服务端,右边充当链接服务器的客户端,双方互发数据会在对方上显示。5.查看正在运行的Java进程(ctrl+C 跳出正在运行的程序)如果后续操作失败(记得删除原先的解压包 再进行后续操作)Ubuntu系统附带Netcat网络工具文件名为nc。有QuorumpeerMain才表示成功。6.启动kafka服务。

2025-05-27 13:09:50 282

原创 spark 知识总结

Row(id='12', name='宋江', age=25, gender='男', object='chinese', score=50), Row(id='12', name='宋江', age=25, gender='男', object='math', score=60)]rdd = sc.parallelize([1,2,3,6,5,4,6,12,23]).groupBy(lambda x:x%3) #将元素分成3组,第一组x%3==0,第二组x%3==1,第三组x%3==2。

2025-05-27 13:06:09 496

原创 Spark上安装MySQL

准备链接mysql所需的信息,用户名,密码,数据库驱动类名,包括mysql连接地址,主机,端口号,数据库名,数据以append方式追加,并输出。准备好要用的数据库和表,先连接到数据库服务,然后创建一个people数据库以及people_info表,并在表里面添加一条数据。进入Downloads把spark sql连接mysql的连接JDBC的jar包复制在spark的目录Downloads下。再插入有关的10条数据进去,记录保存在mysql里,首先创建一个DataFrame。安装完毕,使用之前先初始化。

2025-05-27 12:21:50 152

原创 Jupyter远程密码设置和访问

1.打开.jupyter/jupyter_notebook_config.py文件,找到并修改以下配置项。(根据上图文件位置,找到文件并打开)。这会在用户主目录下生成.jupyter/jupyter_notebook_config.py文件。确保两次密码输入一致,输入确认的密码后,密码会被加密并保存到配置文件中。关闭当前运行的Jupyter Notebook,然后在终端重新启动。在浏览器输入 http://(你的ip地址):8888,即可访问。1.生成配置文件(如果尚未生成配置文件,请先运行下面的命令)。

2025-05-27 12:19:10 466

原创 Ubuntu20.04安装MySQL 8.0最新版

mysql-client_8.0.27-1ubuntu20.04_amd64.deb mysql-community-client_8.0.27-1ubuntu20.04_amd64.deb , 要安 装的是第⼀个不带 community 的这个 ( 因为之前安装了 community 版本还是报这个错,安装 mysql-community-server_8.0.27-1ubuntu20.04_amd64.deb 这个包。以上的依赖都安装完后,就可以安装 server 了。client-core包安装。

2025-05-27 12:16:46 972

原创 TopN问题分析和单元实践练习

比如,文件的原始内容是四行字符串(即"1111"、"2222"、"3333"、"4444"),得到的新 RDD 里面的元素应为(1111, 1111, 3333, 2222)。[("张婷","女",19,"2019 级"),("李婉","女",20, "2019 级")("刘思思","男",22,"2018 级")](1)有一个元组(1,2,3,4,5),请使用 Spark 的 map()将其转换为一系列元组的集合:(0,1,1), (0,4,2),提示:先 sortBy(),再 filter()。

2025-05-27 12:13:07 583

原创 Spark环境搭建与配置

Spark组建的下载地址:通过网盘分享的文件:soft链接pwd=2wvh提取码: 2wvh如果前期安装过程有错,可以删除虚拟机重装,先关闭虚拟机,点击上方虚拟机,点击管理,再点击从磁盘中删除,点击确定就可以了。考虑到本虚拟机要运行hadoop和spark等程序,内存数量必须要2GB以上,不然会出现蓝屏或者崩溃现象。

2025-03-11 15:40:53 1347 1

原创 RDD转换行动操作和词频统计

2.4.2 (13).keys和values操作(keys and values operations)2)如果是对一个空的RDD执行first()方法的话,因为不存在任何元素,此时会提示错误信息。2)Spark将集合数据分配到了多个CPU核上去并行执行,无法保证输出按原有的数字位置顺序。2)这几个方法的调用分别是rdd数据集的最大、最小、和、平均值,它们都是数值类型。2.4.2(14).mapValues和flatMapValues操作。2)take()相比collect()就是可以指定返回的元素个数。

2025-03-11 15:26:52 512

原创 Spark RDD常用操作

1 使用parallelize()方法从普通集合元素创建RDD。6 Spark官方对textFile()方法的功能定义如下。2.4.2(2) flatMap转换数据。2.4.1(1) 从集合元素创建RDD。

2025-03-11 14:23:30 339

spark环境搭建和配置

spark环境搭建和配置的具体步骤

2025-03-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除