
数据挖掘
文章平均质量分 78
大数据最好
大数据,机器学习,深度学习
展开
-
对数据的认识(一)
一、数据对象与属性类型1、属性: 一个数据字段,表示数据对象的一个特征。(属性(数据挖掘和数据库人员使用)、维(数据仓库)、特征(机器学习)、变量可以互换实用(统计学家使用)) 2、标称属性:标称意味着“与名称相关”;标称属性的值是一些符号或失误的名称。每个只代表某种类别、编码或者状态,因而标称属性又被堪称是分类的。例如,人的属性->头发颜色(黑、白、棕、红、黄...)和婚原创 2015-12-05 16:11:16 · 3856 阅读 · 0 评论 -
对数据的认识(二)
四、度量数据的相似性和相异性1、数据矩阵和相异性举证假设我们有n个对象(如人、商品或课程),被p个属性(又称维或特征,如年龄、身高、体重或性别)刻画。这些对象是x1=(x11,x12,…,x1p),x2=(x21,x22,…,x2p),等等,其中xij是对象xi的第j个属性的值。为简单计,以后我们称对象xi为对象i。这些对象可以是关系数据库的元组,也称数据样本或特征向量。原创 2015-12-05 16:39:17 · 3060 阅读 · 1 评论 -
缺失值处理方法
一、缺失值产生的原因缺失值的产生的原因多种多样,主要分为机械原因和人为原因。机械原因是由于机械原因导致的数据收集或保存的失败造成的数据缺失,比如数据存储的失败,存储器损坏,机械故障导致某段时间数据未能收集(对于定时数据采集而言)。人为原因是由于人的主观失误、历史局限或有意隐瞒造成的数据缺失,比如,在市场调查中被访人拒绝透露相关问题的答案,或者回答的问题是无效的,数据录入人员失误漏录了数据。原创 2016-03-28 20:09:53 · 2859 阅读 · 0 评论