
Spark
Hello Spark
卜塔
但行好事,莫问前程
展开
-
【Spark】spark读取、插入Mysql
【代码】【Spark】spark读取、插入Mysql。原创 2023-04-13 17:40:16 · 661 阅读 · 0 评论 -
【Spark】RDD转换DataFrame(StructType动态指定schema)
首先通过StructType指定字段和类型,然后再将RDD和schema信息相映射。原创 2023-04-13 14:34:08 · 421 阅读 · 0 评论 -
【Spark】RDD缓存机制
把RDD的数据缓存起来,其他job可以从缓存中获取RDD数据而无需重复加工。注意:调用这两个方法后并不会立刻缓存,而是有action算子触发时才会缓存。persist有多种缓存方式,如缓存到内存,缓存到磁盘等。cache只缓存到内存,且实际是调用了persist方法。原创 2023-04-12 11:42:34 · 786 阅读 · 0 评论 -
【Spark】RDD转换DataFrame(反射机制)
Spark支持多种格式文件生成DataFrame,只需在读取文件时调用相应方法即可,本文以txt文件为例。原创 2023-04-13 13:38:54 · 628 阅读 · 0 评论 -
【Spark】ip地址查询案例(城市热点图)
上图是一张很常见的城市热力图,像这样的图是如何绘制的呢?其实,每个地区都有自己的经纬度和上网ip区段,可以通过解析上网日志中的ip,定位某个地区的客流量。本篇文章主要介绍,如果通过解析上网日志,查找热门地区经纬度,并把统计数据插入Mysql表中。数据准备这里需要两份数据:日志数据:20090121000132.394251.http.format链接:https://pan.baidu.com/s/1luckcRUOpCDVmivLJ03XOQ提取码:kroh2. 城市ip段数据.原创 2020-07-30 00:39:12 · 1002 阅读 · 0 评论 -
【Spark】sparksql中使用自定义函数
代码中分别用面向对象和面向函数两种写法自定义了两个函数:low2Up: 小写转大写up2Low: 大写转小写import org.apache.spark.sql.types.StringTypeimport org.apache.spark.sql.{DataFrame, SparkSession}object SparkSQLFunction { def main(args...原创 2020-03-11 08:47:09 · 1075 阅读 · 0 评论