- 博客(20)
- 收藏
- 关注
原创 Spark实时数仓(三)
二.样例类三.ES相关(创建index)四.Alert实现五.启动APPES客户端查看输入参数返回结果3.编辑子模块(gmall-realtime)一.数据处理流程三.采集user_Info进入缓存(redis)五.双流join二.配置 application.properties三.业务代码实现pojo层option.java(一个统计选项)SaleDetail.java(销售统计详情)Stat.java(一组统计选项)dao层ESDao.ja
2022-07-11 22:55:31
496
原创 Spark实时数仓(二)
二.配置文件config.propertieslog4j.properties三.工具类PropertiesUtil.scalaMyKafkaUtil.scalaRedisUtil四.DAU实现流程图设计redis的key,value| key | value || — | — || 当前批次日期(logDate) | 设备号(mid) |Phoenix建表为了便于对数据进行解析,需要将数据封装为样例类(StartUpLog,StartLogo
2022-07-11 22:54:52
433
原创 Spark实时数仓(一)
pom.xml2.创建子模块(gmall-common)一.pom.xml二.MyConstants.java3.创建子模块(gmall-logger)将gmall-common模块pom.xml中的以下配置复制到gmall-logger模块的pom.xmlspark-gmall的pom.xml添加以下内容gmall-logger.xmlapplication.properties整合log4j(log4j.properties)编写contro
2022-07-11 22:54:09
2084
原创 ElasticSearch笔记
查询: 宽泛的概念!只要将某个东西查询出来!搜索: 一种特定的查询! 搜索一般指 通过某个关键字,检索出和关键字相关的信息!搜索引擎,不适合使用关系型数据库存储数据!原因: ①在搜索时,只输入关键字,希望可以得到匹配关键字的所有的数据!如果使用数据库,在查询时一定需要模糊查询,模糊查询会导致索引失效,全表扫描!效率低!2.几个框架solr : 和es的作用是一样的,都是用于搜索!效率上: solr(老大哥): 小数据量,静态搜索,优于es!es(新人) : 大数量,动态搜索,优于s
2022-07-11 22:53:35
309
原创 $09[SparkStreaming流式处理]
3.SparkStreaming特点易用编写代码启动程序并通过netcat发送数据[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-oYN7eQJX-1657550653007)(https://z3.ax1x.com/2021/08/31/haRa28.png#id=Tkitw&originHeight=507&originWidth=603&originalType=binary&ratio=1&status=done&style=none)]2.自
2022-07-11 22:44:37
204
原创 &08[SparlSQL(编程_数据的加载和保存)]
2.DataFrame与DataSet的区别3.自定义UDF函数4.自定义UDAF函数(弱类型)MyAvgWeakType.scalaUDAF.scala5.自定义UDAF函数(强类型)MyAvgStronglyType.scalaUDAF.scala第二章.SparkSQL数据的加载与保存1.读取文件2.读取jdbc3.读取mysql的分区数源码4.保存数据5.Spark整合Hive一.内嵌Hive应用直接进入spark-yarn,直接使
2022-07-11 22:43:58
191
原创 $06[SparkCore(分区器_数据读取与保存_累加器_广播变量)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-7SMhMAX4-1657550536149)(https://z3.ax1x.com/2021/09/12/4pXe2t.png#id=jDAOU&originHeight=439&originWidth=913&originalType=binary&ratio=1&status=done&style=none)]第三章.累加器1.累加器介绍2.WordCountAccumulator自定义累加器使用自定义
2022-07-11 22:42:33
117
原创 $05[SparkCore(Action_序列化_依赖关系_持久化)]
2.collect3.count4.first5.take6.takeOrdered7.aggregate8.fold9.countByKey10.save11.foreach11.foreachPartition第二章.RDD序列化1.闭包2.Spark序列化闭包使用未序列化的外部变量时运行结果报错:[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-aj4UUm5t-1657550355591)(https://z3
2022-07-11 22:39:37
318
原创 $03[SparkCore(transformation转换算子)上]
2.mapPartitions3.mapPartitionsWithIndex4.flatMap5.glom6.groupBy7.filter8.sample9.distinct10.coalesce11.repartition12.sortBy13.pipe
2022-07-10 15:27:18
140
1
原创 $01[scala变量类型_运算符_循环控制]
二.Scala与Java关系第二章.变量和数据类型1.注释2.标识符的命名规范3.变量4.字符串输出
2022-07-10 14:57:53
166
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人