
spark
努力成为一名资深大数据选手
努力成为一名资深大数据选手
展开
-
hive中的多维函数:
1.grouping sets()2.rollup3.cubeimport org.apache.spark.sql.{DataFrame, SparkSession}object Sss { def main(args: Array[String]): Unit = {val session: SparkSession = SparkSession.builder().appName(“a”).master(“local[*]”).getOrCreate()val list=List.原创 2020-12-29 19:42:34 · 255 阅读 · 0 评论 -
spark-sql写法
原创 2020-12-27 21:11:02 · 139 阅读 · 0 评论 -
使用sparkSql处理数据--离线数据(周考题)
1.问题:统计log数据,过滤不符合规则数据(未写薪资,格式不合要求)统计年薪岗位占总岗位的比例?统计各个省市的月平均薪资和岗位数量(薪资取最高,例如1-1.5万,取1.5万)?统计薪资(薪资取最高,例如1-1.5万,取1.5万)超过2万的岗位数量2.代码实现:object Test01 { def main(args: Array[String]): Unit = { //去掉多余的log Logger.getLogger("test").setLevel(Leve原创 2020-12-12 20:10:44 · 788 阅读 · 0 评论 -
1.实时项目
1、项目简介1.1 项目背景监控某APP官网的用户行为日志,然后使用对应的服务器接受数据,在对数据进行Spark分析,统计出哪些是爬虫数据,哪些是好的数据,然后进行行为数据监控即可。1.2 系统功能模块数据采集模块、流程管理模块、策略管理模块、规则管理模块、实时监控模块、可视化模块1.3 逻辑架构1.4 物理架构(重点掌握)1.5 功能描述对系统性能的数据监控、实时统计各链路流量连接数、实时计算指标等注:链路就是服务器的意思1.6 技术选型Hadoop2.7.6、S原创 2020-12-12 15:46:01 · 536 阅读 · 0 评论 -
trigger:使用structuredStreaming实时计算
使用triggerpackage com.qf.sparkstreaming.day04import org.apache.spark.sql._import org.apache.spark.sql.streaming.Trigger/** * trigger函数: * sparkStreaming是一个准实时的计算框架,微批处理 * structuredStreaming是一个实时的计算框架,但是底层使用的sparksql的api, * 并且是sparkStreamin原创 2020-12-09 22:19:45 · 571 阅读 · 0 评论 -
kafka生产数据-->api接收-->处理(使用Structure)-->api把结果保存到mysql上
注意:mysql中的表要提前存在package com.qf.sparkstreaming.day04import java.sql.{Connection, DriverManager, PreparedStatement}import org.apache.spark.sql.streaming.OutputModeimport org.apache.spark.sql.{DataFrame, Dataset, ForeachWriter, Row, SparkSession}obj.原创 2020-12-09 22:17:16 · 147 阅读 · 0 评论 -
kafka生产数据-->api接收-->处理(使用Structure)-->api把结果保存到kafka中
package com.qf.sparkstreaming.day04import org.apache.spark.sql.{DataFrame, SparkSession}object _05SinkKafka { def main(args: Array[String]): Unit = { val session: SparkSession = SparkSession.builder().appName("test1").master("local[*]").get原创 2020-12-09 22:14:45 · 180 阅读 · 0 评论 -
kafka生产数据-->api接收-->处理(使用Structure)-->api把结果写到hdfs上
kafka生产数据–>api接收–>处理(使用Structure)–>api把结果写到hdfs上package com.qf.sparkstreaming.day04import org.apache.spark.sql.{DataFrame, Dataset, SparkSession}object _04SinkHdfs { def main(args: Array[String]): Unit = { val session: SparkSess.原创 2020-12-09 22:12:36 · 149 阅读 · 0 评论 -
kafka-structure使用读取Kafka的数据(json格式的)到structure中处理然后输出到控制台
package com.qf.sparkstreaming.day04import org.apache.spark.sql.streaming.OutputModeimport org.apache.spark.sql.types.{DataTypes, StructType}import org.apache.spark.sql.{DataFrame, SparkSession}/** { "devices": { "cameras": { "devic原创 2020-12-09 22:08:24 · 597 阅读 · 0 评论 -
SparkSql-redis:将查询到的结果保存到redis中
2020.12.08号作业题1.启动redisredis-server /usr/local/redis/redis.conf2.写代码问题1.计算出总的成交量总额(结果保存到redis中)问题2.计算每个商品分类的成交量(结果保存到redis中)问题3.计算每个省份的成交总额(结果保存到redis)object Work { def main(args: Array[String]): Unit = { Logger.getLogger("org").setLevel.原创 2020-12-08 21:59:38 · 1152 阅读 · 1 评论 -
7.SparkStreaming-在线黑名单过滤-(不是我写的)
package com.qf.sparkstreaming.day02import org.apache.log4j.{Level, Logger}import org.apache.spark.SparkConfimport org.apache.spark.rdd.RDDimport org.apache.spark.streaming.dstream.DStreamimport org.apache.spark.streaming.{Seconds, StreamingContext}原创 2020-12-07 21:52:21 · 335 阅读 · 0 评论 -
6.SparkStreaming-屏蔽黑名单
说明:屏蔽黑名单…package com.qf.sparkStreaming.day02import org.apache.log4j.{Level, Logger}import org.apache.spark.SparkConfimport org.apache.spark.rdd.RDDimport org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}import org.apache.spark.st原创 2020-12-07 21:01:21 · 167 阅读 · 0 评论 -
spark-RDD持久化
对多次使用的RDD进行持久化的代码示例// 如果要对一个RDD进行持久化,只要对这个RDD调用cache()和persist()即可。// 正确的做法。// cache()方法表示:使用非序列化的方式将RDD中的数据全部尝试持久化到内存中。// 此时再对rdd1执行两次算子操作时,只有在第一次执行map算子时,才会将这个rdd1从源头处计算一次。// 第二次执行reduce算子时,就会直接从内存中提取数据进行计算,不会重复计算一个rdd。val rdd1 = sc.textFile("hdfs原创 2020-11-30 19:07:22 · 123 阅读 · 0 评论