困了就倒头睡-优快云博客

原创摸鱼大数据——用户画像——基本介绍

用户画像, 主要是针对用户的基础信息数据和用户关联信息数据, 给用户打上具体属性标签的过程 (给用户打标签)简单理解: 给用户打标签,帮助我们认识我们的用户例如:男，28岁，已婚，收入2万以上，爱旅行，爱美食，喜欢淘宝，喜欢红酒配香烟。女，80后，白领，喜欢美剧，爱打扮，常去星巴克，常住中高端宾馆，关注时尚等。这就是用户信息标签化用户画像是一种能将定性与定量方法很好结合在一起的载体。定性化的方法: 通过对用户的生活情境、使用场景、用户心智进行分析对来用户的性质和特征做出抽象与概括；。

2024-07-22 07:15:00 1721

原创摸鱼大数据——用户画像——如何给用户“画像”

标签: 是某一种用户特征的符号表示标签体系: 把用户分到多少类别里面去, 这些类是什么, 彼此之间有什么关系, 就构成了标签体系标签解决的问题: 解决描述(或命名)问题以及解决数据之间的关联。

2024-07-22 07:15:00 1981

原创摸鱼大数据——Spark Structured Steaming——物联网数据分析案例

{'deviceID': 'device_1_1', 'deviceType': '油烟机', 'deviceSignal': 23, 'time': '1668848417'} {'deviceID': 'device_0_4', 'deviceType': '洗衣机', 'deviceSignal': 55, 'time': '1668848418'}deviceTypes = ["洗衣机", "油烟机", "空调", "窗帘", "灯", "窗户", "煤气报警器", "水表", "燃气表"]

2024-07-21 07:15:00 1189

原创摸鱼大数据——Spark Structured Steaming——新零售数据分析案例

数据内容字段说明。

2024-07-21 07:15:00 960

原创摸鱼大数据——Spark Structured Steaming——结构化流的编程综合案例

注意: 路径必须是目录路径,因为readStream会自动读取此目录下的所有文件,有新增会触发接着读。# 注意: 路径必须是目录路径,因为readStream会自动读取此目录下的所有文件,有新增会触发接着读。# 注意: 如果需要多开启多个输出,.awaitTermination()只需要在最后一个出现即可。# 注意: 如果需要多开启多个输出,.awaitTermination()只需要在最后一个出现即可。# 注意: 输出不能使用原来sparksql的show()# 3.数据处理(切分,转换,分组聚合)

2024-07-20 07:15:00 798

原创摸鱼大数据——Spark Structured Steaming——Spark 和 Kafka 整合

Spark天然支持集成Kafka, 基于Spark读取Kafka中的数据, 同时可以实施精准一次（仅且只会处理一次）的语义, 作为程序员, 仅需要关心如何处理消息数据即可, 结构化流会将数据读取过来, 转换为一个DataFrame的对象, DataFrame就是一个无界的DataFrame, 是一个无限增大的表。1- 放置位置一: 当spark-submit提交的运行环境为Spark集群环境的时候,以及运行模式为local, 默认从 spark的jars目录下加载相关的jar包,从最新的消息数据开始消费。

2024-07-20 07:15:00 1419

原创摸鱼大数据——Spark Structured Steaming——基本介绍

有界数据:有界数据: 指的数据有固定的开始和固定的结束，数据大小是固定。我们称之为有界数据。对于有界数据，一般采用批处理方案（离线计算）特点：1-数据大小是固定2-程序处理有界数据，程序最终一定会停止无界数据:无界数据: 指的数据有固定的开始，但是没有固定的结束。我们称之为无界数据注意: 对于无界数据，我们一般采用流式处理方案（实时计算）特点：1-数据没有明确的结束，也就是数据大小不固定2-数据是源源不断的过来3-程序处理无界数据，程序会一直运行不会结束结构化流。

2024-07-19 07:15:00 943

原创摸鱼大数据——Spark Structured Steaming——结构化流的编程模型

当结构化程序处理数据的时候，如果处理阶段没有聚合操作，该模式效果和append模式是一致。2- 配置固定的时间间隔：在结构化流运行的过程中，当一批数据处理完以后，下一批数据需要等待一定的时间间隔才会进行处理。1- 上一批次的数据在时间间隔内处理完成了，那么会等待我们配置触发器固定的时间间隔结束，才会开始处理下一批数据。3- 上一批次的数据在固定时间间隔内没有处理完成，那么下一批次会等待上一批次处理完成以后立即开始处理，不会等待。特点：当结构化程序处理数据的时候，每一次都是针对全量的数据进行处理。

2024-07-19 07:15:00 882

原创摸鱼大数据——Kafka——Kafka核心概念三

1- 在同一个消费组中，一个Topic中一个分区的数据，只能被同个消费组中的一个消费者所消费，不能被同个消费组中多个消费者所消费。但是一个消费组内的一个消费者可以消费多个分区的数据。1- 在同一个消费组中，一个Topic中一个分区的数据，只能被同个消费组中的一个消费者所消费，不能被同个消费组中多个消费者所消费。3- 不同的消费组中的消费者，可以对一个Topic的数据同时消费，也就是不同消费组间没有任何关系。3- 不同的消费组中的消费者，可以对一个Topic的数据同时消费，也就是不同消费组间没有任何关系。

2024-07-18 07:15:00 942

原创摸鱼大数据——Kafka——Kafka核心概念四

Kafka Eagle是一个用于监控和管理kafka的开源组件，可以同时监控多个kafka集群,通过Kafka Eagle可以看到当前的消费者组，对于每个组，他们正在使用的主题以及该组在每个主题中的偏移量，消费积压等等JMX（Java Management Extensions，即 Java 管理扩展）是一个为应用程序、设备、系统等植入管理功能的框架。kafka 中已经集成该框架它提供了对Java应用程序和JVM的监控和管理功能。

2024-07-18 07:15:00 948

原创摸鱼大数据——Kafka——Kafka核心概念一

然而，在大多数情况下，这种开销是可以接受的，因为它提高了系统的容错性和可靠性，对于大多数企业级应用来说，这是非常重要的考虑因素。kafka-consumer-perf-test.sh 是 Apache Kafka 自带的消费者性能测试脚本，它能够评估 Kafka 消费者的吞吐量和其他性能指标。- 主副本-leader replica: 实际负责数据读写的副本，生产者和消费者都与这个副本进行交互的。各自分区内的偏移量是独立的，互不影响，所有每个分区的内的数据是有序的，但是多个分区的数据之间无法保障有序。

2024-07-17 07:15:00 1406

原创摸鱼大数据——Kafka——Kafka核心概念二

在实际工作中，推荐的分区的副本数量是1-3个。分片：对于分布式的系统，可以将大规模的数据分开存储，比如hdfs上会把数据分成不同的block分别存储在不同的datanode上，即提高了存储能力又降低了复杂度，同时可以提高数据处理的并发能力。如果所有的数据都写入一个文件的话，文件的数量会越来越多，当查询读取数据时，就需要打开一个非常大的文件，文件的打开速度会变得越来越慢，影响数据的读取速度。查找是会先根据查找的偏移量会文件的名称进行比对，确认数据在哪个文件中，然后再读取对应的文件数据，可以读取所有文件。

2024-07-17 07:15:00 848

原创摸鱼大数据——Kafka——Kafka的shell命令使用

Kafka本质上就是一个消息队列的中间件的产品，主要负责消息数据的传递。也就说学习Kafka 也就是学习如何使用Kafka生产数据，以及如何使用Kafka来消费数据。

2024-07-16 07:15:00 1136

原创摸鱼大数据——Kafka——kafka tools工具使用

可以在可视化的工具通过点击来操作kafka完成主题的创建，分区等操作注意: 安装完后桌面不会有快捷方式,需要去电脑上搜索,或者去自己选的安装位置找到发送快捷方式到桌面!

2024-07-16 07:15:00 6322

原创摸鱼大数据——Kafka——Kafka的集群搭建

2- 分发之后，记得要修改每个server.properties的 id 和监听地址。(5) 给start-kafka.sh、stop-kafka.sh配置执行权限。5- 启动的时候server.properties中路径，不要写错了。（2）准备slave配置文件，用于保存要启动哪几个节点上的kafka。（1）在节点1 中创建 /export/onekey 目录。# 2.再在三台集群上都输入以下命令,启动Kafka。# 再启动Kafka。# 2.只在node1上一键启动所有kafka服务。

2024-07-12 07:15:00 985

原创摸鱼大数据——Kafka——Kafka的shell命令使用

Kafka本质上就是一个消息队列的中间件的产品，主要负责消息数据的传递。也就说学习Kafka 也就是学习如何使用Kafka生产数据，以及如何使用Kafka来消费数据。

2024-07-12 07:15:00 1392 1

原创摸鱼大数据——Spark SQL——Spark SQL的运行机制

Spark SQL底层依然运行的是Spark RDD的程序，所以说Spark RDD程序的运行的流程，在Spark SQL中依然是存在的，只不过在这个流程的基础上增加了从SQL翻译为RDD的过程Spark SQL的运行机制，其实就是在描述如何将Spark SQL翻译为RDD程序:整个Spark SQL 转换为RDD 是基于Catalyst 优化器实施，基于这个优化器即可完成整个转换操作大白话：SQL执行顺序: from->join on->where->groupby->聚合操作->having->sele

2024-07-11 07:15:00 651

原创摸鱼大数据——Kafka——基本介绍

MQ：message queue消息队列activeMQ: 出现时期比较早的一款消息队列的中间件产品，在早期使用人群是非常多，目前整个社区活跃度严重下降，使用人群很少了rabbitMQ: 此款是目前使用人群比较多的一款消息队列的中间件的产品，社区活跃度比较高，主要是应用传统业务领域中rocketMQ: 是阿里推出的一款消息队列的中间件的产品，目前主要是在阿里系环境中使用，目前支持的客户端比较少，主要是Java中应用较多。

2024-07-11 07:15:00 706

原创摸鱼大数据——Spark SQL——Spark on Hive部署

spark.sql("""insert into spark_demo.stu values(1,'张三'),(2,'李四')""")spark-sql>insert into spark_demo.stu values(1,'张三'),(2,'李四');（1）检查hive中 hive-site.xml中，是否有关于metastore的地址配置。4- 对于使用者/程序员来说，SparkSQL与Hive集成，对于上层使用者来说，是完全透明的。# 测试是否能在spark_demo建表: 可以。

2024-07-10 07:15:00 1173

原创摸鱼大数据——Spark SQL——SparkSQL的分布式执行引擎

分布式执行引擎 == Thrift服务 == ThriftServer == SparkSQL中的Hiveserver2。

2024-07-10 07:15:00 1507

原创摸鱼大数据——Spark SQL——Spark SQL函数定义一

自定义函数流程：第一步: 在PySpark中创建一个Python的函数，在这个函数中书写自定义的功能逻辑代码即可第二步: 将Python函数注册到Spark SQL中注册方式一: udf对象 = sparkSession.udf.register(参数1,参数2,参数3)参数1: 【UDF函数名称】，此名称用于后续在SQL中使用，可以任意取值，但是要符合名称的规范参数2: 【自定义的Python函数】，表示将哪个Python的函数注册为Spark SQL的函数。

2024-07-09 07:15:00 765 2

原创摸鱼大数据——Spark SQL——Spark SQL函数定义二

第一步: 在PySpark中创建一个Python的函数，在这个函数中书写自定义的功能逻辑代码即可第二步: 将Python函数注册到Spark SQL中注册方式一: udf对象 = sparkSession.udf.register(参数1,参数2,参数3)参数1: 【UDF函数名称】，此名称用于后续在SQL中使用，可以任意取值，但是要符合名称的规范参数2: 【自定义的Python函数】，表示将哪个Python的函数注册为Spark SQL的函数参数3: 【UDF函数的返回值类型】。

2024-07-09 07:15:00 1175

原创摸鱼大数据——Spark SQL——DataFrame详解二

df.createGlobalTempView('视图名称'): 创建一个全局视图，运行在一个Spark应用中多个spark会话中都可以使用。df.createOrReplaceTempView('视图名称'): 创建一个临时的视图(表名)，如果视图存在，直接替换。为了能够支持在编写Spark SQL的DSL时候，在DSL中使用SQL函数，专门提供一个SQL的函数库。where()和filter()：用于对数据进行过滤操作, 一般在spark SQL中主要使用where。agg()：执行聚合操作。

2024-07-08 07:15:00 964

原创摸鱼大数据——Spark SQL——Spark SQL的综合案例

1- 什么使用使用select()，什么时候使用groupBy()+agg()/select()实现聚合?如果有分组操作，需要使用groupBy()+agg()/select()，推荐使用agg()3- F.col(): 对于在计算过程中临时产生的字段，需要使用F.col()封装成Column对象,然后去使用。需求四: 查询高分电影中(电影平均分大于3)打分次数最多的用户, 并且求出此人所有的打分记录中, 打的平均分是多少。# col():把临时结果作为新列使用 first():取第一个值。

2024-07-08 07:15:00 1039

原创摸鱼大数据——Spark SQL——基本介绍和入门案例

Spark SQL是Spark多种组件中其中一个，主要是用于处理大规模的【结构化数据】什么是结构化数据: 一份数据, 每一行都有固定的列, 每一列的类型都是一致的我们将这样的数据称为结构化的数据例如: mysql的表数据1 张三 202 李四 153 王五 184 赵六 12为什么要学习Spark SQL呢?1- 会 SQL的人, 一定比会大数据的人多2- Spark SQL 既可以编写SQL语句, 也可以编写代码, 甚至可以混合使用。

2024-07-07 07:15:00 807

原创摸鱼大数据——Spark SQL——DataFrame详解一

DataFrame表示的是一个二维的表。二维表，必然存在行、列等表结构描述信息表结构描述信息(元数据Schema): StructType对象字段: StructField对象，可以描述字段名称、字段数据类型、是否可以为空行: Row对象列: Column对象，包含字段名称和字段值在一个StructType对象下，由多个StructField组成，构建成一个完整的元数据信息。

2024-07-07 07:15:00 1322

原创摸鱼大数据——Spark Core——Spark内核调度

Spark内核调度的任务：如何构建DAG执行流程图如何划分Stage阶段Driver底层是如何运转确定需要构建多少分区（线程）Spark内核调度的目的：尽可能用最少的资源高效地完成任务计算。

2024-07-06 09:25:51 705

原创摸鱼大数据——Spark Core——缓存和checkpoint

需求一: 统计每个关键词出现了多少次, 最终展示top10数据注意:'.', '+', '的' 都需要过滤。# 需求一: 统计每个关键词出现了多少次, 最终展示top10数据注意:'.', '+', '的' 都需要过滤。使用count算子触发。# 需求一: 统计每个关键词出现了多少次, 最终展示top10数据注意:'.', '+', '的' 都需要过滤。.filter(lambda word: word not in ('.', '+', '的')) \。

2024-07-06 09:25:15 1176

原创摸鱼大数据——Spark Core——RDD综合案例——点击流

点击流日志数据结构说明: Nginx日志访问网站的日志数据数据字段说明：1- ip地址2- 用户标识cookie信息(- - 表示没有)3- 访问时间(时间,时区)4- 请求方式(get / post /Head ....)5- 请求的资源路径6- 请求的协议7- 请求状态码: 200 成功8- 响应的字节长度9- 来源的URL( - 标识直接访问, 不是从某个页面跳转来的)10- 访问的浏览器标识。

2024-07-05 07:15:00 1108

原创摸鱼大数据——Spark Core——RDD综合案例——搜狗搜索流

访问时间用户id []里面是用户输入搜索内容 url结果排名用户点击页面排序用户点击URL字段与字段之间的分隔符号为 \t和空格 (制表符号)

2024-07-05 07:15:00 1187

原创摸鱼大数据——Spark Core——RDD的基本介绍和如何构建RDD

RDD：英文全称Resilient Distributed Dataset，叫做弹性分布式数据集，代表一个不可变、可分区、里面的元素可并行计算的分布式的抽象的数据集合。Resilient弹性：RDD的数据可以存储在内存或者磁盘当中，RDD的数据可以分区Distributed分布式：RDD的数据可以分布式存储，可以进行并行计算Dataset数据集：一个用于存放数据的集合。

2024-07-04 07:15:00 825

原创摸鱼大数据——Spark Core——RDD的相关算子

RDD算子：指的是RDD对象中提供了非常多的具有特殊功能的函数，我们将这些函数称为算子（函数/方法/API）相关的算子的官方文档： Spark Core — PySpark 3.1.2 documentation整个RDD算子，共分为两大类：Transformation(转换算子): 返回值: 是一个新的RDD 特点: 转换算子只是定义数据的处理规则，并不会立即执行，是lazy（惰性）的。需要由Action算子触发 Action(动作算子): 返回值: 要么没有返

2024-07-04 07:15:00 1472

原创摸鱼大数据——Spark基础——Spark-submit命令

export/data/spark_project/spark_base/05_词频统计案例_spark_on_yarn运行.py。后续需要将自己编写的Spark程序提交到相关的资源平台上，比如说: local yarn spark集群(standalone)Spark为了方便任务的提交操作，专门提供了一个用于进行任务提交的脚本文件: spark-submit。spark-submit在提交的过程中，设置非常多参数，调整任务相关信息。executor的资源配置参数。自定义的python示例。

2024-07-03 07:15:00 554

原创摸鱼大数据——Spark基础——PySpark程序与Spark交互流程

因此会调用服务器上的Python解释器，将Python函数和输入数据传输给到Python解释器，执行完以后，将结果数据返回给Executor进程。因此会调用服务器上的Python解释器，将Python函数和输入数据传输给到Python解释器，执行完以后，将结果数据返回给Executor进程。因此会调用服务器上的Python解释器，将Python函数和输入数据传输给到Python解释器，执行完以后，将结果数据返回给Executor进程。占用相应的资源，通知从节点启动Executor进程。

2024-07-03 07:15:00 940

原创摸鱼大数据——Spark基础——Spark入门案例词云统计加强

该错误需要查看Hadoop的源代码（131行）：https://gitee.com/highmoutain/hadoop/blob/trunk/hadoop-mapreduce-project/hadoop-mapreduce-client/hadoop-mapreduce-client-core/src/main/java/org/apache/hadoop/mapred/FileOutputFormat.java。函数传入的参数有两个，参数1表示的是局部聚合结果，默认值是列表中的第一个元素；

2024-07-02 07:15:00 925

原创摸鱼大数据——Spark基础——Spark On Yarn环境配置和部署

export/data/spark_project/spark_base/05_词频统计案例_spark_on_yarn运行.py。/export/data/spark_project/spark_base/05_词频统计案例_spark_on_yarn运行.py。/export/data/spark_project/spark_base/05_词频统计案例_spark_on_yarn运行.py。相比原理hadoop集群,需要多启动一个spark的自己的历史服务,它是依赖hadoop的历史服务的!

2024-07-02 07:15:00 2276 1

原创摸鱼大数据——Spark基础——Spark集群Standalone模式+PyCharm远程开发配置

远程连接方案, 允许所有的程序员都去连接远端的测试环境, 确保大家的环境都是统一的, 避免各种环境问题的发生,而且由于是连接的远程环境, 所有在pycharm编写代码都会自动上传到远端服务器中, 在执行代码的时候, 相当于是直接在远端环境上进行执行操作。可以配置为Base环境，也可以配置为其他的虚拟环境, 但是目前建议配置为Base环境，因为Base环境自带python包更全面一些。Standalone的模式是Spark自身进行资源和任务的管理，不借助任何的第三方的工具。4- 接收Spark任务的请求。

2024-07-01 07:15:00 574

原创摸鱼大数据——Spark基础——Spark入门案例词云统计

输入数据：[('hello', 1), ('hello', 1), ('spark', 1), ('hello', 1), ('heima', 1), ('spark', 1)]输入数据：[('hello', 1), ('hello', 1), ('spark', 1), ('hello', 1), ('heima', 1), ('spark', 1)]WordCount词频统计。输出数据：[['hello', 'hello', 'spark'], ['hello', 'heima', 'spark']]

2024-07-01 07:15:00 659

原创摸鱼大数据——Spark基础——Spark环境安装——Spark Local[*]搭建

spark-shell --master local[N] 表示在本地模拟N个线程来运行当前任务。spark-shell --master local[*] 表示使用当前机器上所有可用的资源。Spark的local模式, 开箱即用, 直接启动bin目录下的spark-shell脚本。直接重命名: mv spark-3.1.2-bin-hadoop3.2 spark。4.后续还可以使用--master指定集群地址，表示把任务提交到集群上运行，如。在本地使用单机多线程模拟Spark集群中的各个角色。

2024-06-30 07:15:00 936

原创摸鱼大数据——Spark基础——Spark环境安装——PySpark搭建

bashrc 也是看名字就知道, 是专门用来给 bash 做初始化的比如用来初始化 bash 的设置, bash 的代码补全, bash 的别名, bash 的颜色. 以此类推也就还会有 shrc, zshrc 这样的文件存在了, 只是 bash 太常用了而已.其实看名字就能了解大概了, profile 是某个用户唯一的用来设置环境变量的地方, 因为用户可以有多个 shell 比如 bash, sh, zsh 之类的, 但像环境变量这种其实只需要在统一的一个地方初始化就可以了, 而这就是 profile.

2024-06-30 07:15:00 3447

摸鱼大数据-Spark SQL-Spark SQL函数定义

摸鱼大数据-Spark Core-RDD综合案例-搜狗搜索流

摸鱼大数据-Spark Core-RDD综合案例

程序猿大战Python-开发第1个Python程序

空空如也