一、需求背景
上一篇文章 数据融合工具(8)缠绕线检查和修复“ 已经描述了数据质量问题中“缠绕线”的查找和修复功能。为什么本文还要说缠绕线修复的事呢?
主要是应用场景不同,即需要在使用工具前,对数据情况有一定的分析了解,再根据数据的情况选用不同的工具。
简单来说,“缠绕线检查和修复”工具,像是捕鱼中的一网打尽,只需要提前设置好渔网的网格大小,不区分鱼的种类,全部打捞;而“线缠绕修复”工具,相当于对一次性打捞的鱼种,进行二次筛选,仅对满足打捞条件的鱼种进行保留,其余的全部放生。
还是“图文并茂”吧
01 示例一
“缠绕线检查(修复)”工具有一个参数“线要素间最大间距”,该参数用于控制缠绕线间搜索的最大偏离距离值。如下图右侧黑色箭头指向介绍,由于曲线弯曲处距离小于指定搜索距离(如10米),在做DTW分析(为适应线缠绕的场景,重写和优化了该算法)的时候,会在缠绕线中所有满足搜索