
大数据
文章平均质量分 88
皓波
这个作者很懒,什么都没留下…
展开
-
BayesWipe: A Scalable Probabilistic Framework 论文笔记及其错误
这是论文BayesWipe的阅读笔记,这是一个数据清洗系统,论文发表在JDIQ,这个期刊比较新,使用了概率图模型中的BBN来做,算是一个比较新的将机器学习融入数据清洗的系统,但是我认为其似然也就是P(T|T*)的计算是有问题的,读者可以仔细推敲一下:P(T|T*)P(T*)=P(T*|T)P(T) (1)这个公式是成立的,一个前提条件是T和T*互相在C集合中,那么作者在清洗T的时候用到了的原创 2017-07-29 22:33:48 · 543 阅读 · 0 评论 -
贝叶斯信念网络简介以及算法整理笔记
这几天在写BayesWipe,写到条件概率表(CPT,Conditional Probability Table)的时候,感觉对贝叶斯网络的参数学习还是有些不清楚,因此想整理一下贝叶斯信念网络(BBN,Bayesian Belief Network)的一些概念,包括一些方法的整理。原创 2017-07-23 13:36:51 · 9713 阅读 · 0 评论 -
异常检测的方法整理
基本思想都是利用一个算法给出某个点的离群点得分,根据阈值找到离群点分类基于方法的分类基于模型的技术比如我们的数据是一个高斯分布,那么一个对象不能很好地拟合这个分布,就会被认为是一个异常点基于邻近度的技术通常在对象之间定义邻近性度量,并且许多异常检测方法都基于邻近度。异常对象是远离大部分其他对象的点。基于密度的技术对象的密度估计可以相对直接原创 2017-07-23 14:53:58 · 3861 阅读 · 0 评论 -
BigDansing: A System for Big Data Cleansing论文笔记
这是BigDansing这篇论文的一些笔记,希望对您有所帮助。1.基础Semantics Detect GenFix v v->UDF->Violation->Possible FixesUDFU:用户自定义的关系D:拒绝约束(t1,t2=>原创 2017-07-25 22:35:37 · 1058 阅读 · 0 评论