数据分类分级-结构化数据识别与分类的算法实践

本文分享了用九智汇数据分类分级产品开发过程中,对数据识别和数据分类中涉及的算法进行抽象、融合,以形成标准化产品所做的努力和积累的经验。当然,算法只是分类分级产品的一小部分,整个产品设计,工程实现,也是支撑标准化产品的关键,但是限于作者水平有限,本文只讨论算法相关的话题,欢迎大家关注公众号以了解更多信息。

背景

数据分类是数据安全和数据合规体系建设的基石。无论是数据安全策略制定、数据合规性评估,还是事件响应处置和员工数据安全意识引导,都离不开对数据进行有效的标记和分类。通常所说的数据分类其实包括两部分事情,首先是数据识别,即需要知道数据是什么,如姓名、手机号、证券代码、金额、药品名称等;然后才是结合业务进行的分类,例如,进一步将姓名区分为用户信息,员工信息,或公开的企业信息等,药品名称区分为公开的药物说明信息、医嘱信息、个人疾病信息等。为了进行区分,我们把数据识别的结果称为标识,而数据分类的结果才称为类别。

数据识别的方法主要有三种方式:

1、正则匹配,适用于固定格式的数据,识别数据内容,比如手机号,邮箱地址等;
2、文本分类模型,适用于简短的自然语言构成的数据,比如姓名,产品名称等;
3、针对元数据的匹配,如数据库的表名、字段名、字段备注等;

这几种方式做好了都能达到不错的效果,也各有优缺点。正则匹配能以很高的召回率应对各类ID或code,但是准确率存在一些问题。通过一定优化后,文本分类模型准召能达到不错的平衡,但是通常运行所需成本也更高。而如果企业的数据治理水平较高,且相关人员已经对数据有清楚的认识,针对元数据进行匹配是效率非常高的手段。

数据分类则几乎只有通过元数据一种手段:基于企业的数据模型,以及表名、列名中出现的一些关键词等,判断数据来自于什么业务系统。为了增加分类的准确率,同一张表是其他列的数据识别结果,也是一个有用的信息。但总的说来,技术可选择的方案不算太多。

我们的实践

1、统一的数据识别框架

如上文所说,已有的数据识别方案需要根据数据的情况,在三种方法选择其一,这在设计上就不

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

用九智汇

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值