
Spark
文章平均质量分 78
团子Yui
这个作者很懒,什么都没留下…
展开
-
Spark网格搜索——训练验证集拆分
Spark内的网格搜索主要有两种评估流程,分别是交叉验证和训练验证集拆分,这篇文章主要介绍训练验证集拆分的具体流程。原创 2022-11-21 14:21:34 · 1536 阅读 · 2 评论 -
Spark读ClickHouse——dbtable sql
spark读取clickhouse数据时存在着诸多限制如:不支持array数组类型的读取clickhouse存在着需要用final修饰的表clickhouse按照分区过滤……在不造轮子的情况下,可以用spark jdbc的一些骚操作实现clickhouse sql以下是sparksql jdbc获取数据结构的源码 /** * Get the SQL query that should be used to find if the given table exists. Diale原创 2021-09-23 17:57:58 · 1665 阅读 · 1 评论 -
Spark引用h2o框架,实施线上异常点检测——孤立森林模型(isolation forest)
Spark异常点检测算法——孤立森林模型异常检测的特性在生产中通常要进行异常数据检测,异常检测又被称为“离群点检测” (outlier detection),一般具有两个特性异常数据跟大部分样本数据不太一样异常数据在整体数据中的占比比重较小以用户行为的埋点为例,这类数据通常对于异常数据的界限没有一个明确的划分。因此SVM、逻辑回归等这类需要大量正向、负向样本的算法并不适用于上述情况。对于这类没有确定结果的数据来说,我们期望拥有一个无监督模型,根据样本间的相似性对样本集进行分类,从而检测出对应原创 2021-06-04 15:43:05 · 1995 阅读 · 0 评论 -
SparkSQL jdbc()写入流程分析
SparkSQL jdbc()写入流程分析导言在使用SparkSQL自带的jdbc()方法测试ClickHouse的写入性能时,jdbc()写入无法支持Array类型的数据写入。网上有人说不支持数组写入的原因是SparkSQL的jdbc()方法获取到的是statement连接,而不是preparedStatement连接,因此SparkSQL不支持Array类型的写入。抛开这个结论的正确性不谈,要想知道jdbc()不支持数组的原因,只要深入Spark的源码,应该就能找到答案了。因此笔者准备用两篇文章原创 2021-02-05 16:49:43 · 1395 阅读 · 0 评论 -
SparkML基于ALS,Kmeans实现用户聚类推荐
import spark.implicits._ //todo 使用als模型获取基于评分的 用户\物品 特征向量 //获取数据 val rating = spark.table("dw.dw_user_rating") .select($"gid", $"game_id", $"rating") //利用StringIndexer获取映射模型 val index_1 = new StringIndexer().setInputCol("gid").se.原创 2020-12-29 18:43:27 · 874 阅读 · 0 评论 -
spark任务结束时timeout问题
先上错误图这个错误是由一个临时导出需求产生的,任务需要读取两个大表进行join操作,所以耗费的时间也比较多,在Spark任务结束时产生了上图的异常。这个任务其实在底层已经成功运行并输出结果了,且任务结果文件已经成功写入到HDFS中,再加上日志的警告部分提示的是ShutdownHook timeout,初步判断是Hadoop的ShutdownHookManager在任务结束时关闭钩子时执行FutureTask的get方法时产生了timeout异常。不排除是Spark的原因,根据网上所说将spark的n原创 2020-09-23 14:15:05 · 2016 阅读 · 2 评论 -
Spark SQL 捕捉\过滤 错误格式的数据
Spark在读取原始日志信息时,有时会遇到一些脏数据导致某些算子无法正常使用。过滤错误数据如果过滤掉脏数据对总体计算并没有多大影响的情况下,通常可以直接过滤掉错误格式的数据。val schema=spark.read.json(hdfsPath).schemaspark.read.schema(schema).option("mode", "DROPMALFORMED").json(hdfsPath)ex://原数据val origin_data="""{"a": 1, "b":2, "c"原创 2020-12-14 15:52:51 · 799 阅读 · 0 评论