
datamining
文章平均质量分 57
jmydream
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
距离和相似度度量
在数据分析和数据挖掘的过程中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如K最近邻(KNN)和K均值(K-Means)。当然衡量个体差异的方法有很多,最近查阅了相关的资料,这里整理罗列下。 为了方便下面的解释和举例,先设定我们要比较X个体和Y个体间的差异,它们都包含了N个维的特征,即X=(x1, x2, x3转载 2013-03-06 20:59:29 · 1528 阅读 · 0 评论 -
yelp投票预测
> randomForest( review_votes.useful ~ ., data=rFdata, importance=TRUE, na.action=na.omit,proximity=TRUE,keep.forest=T)Error in randomForest.default(m, y, ...) : Can not handle categorical predic原创 2013-04-08 12:28:54 · 1691 阅读 · 0 评论 -
残差residual VS 误差 error
In statistics and optimization, statistical errors and residuals are two closely related and easily confused measures of "deviation of a sample from the mean": the error of a sample is the deviation o转载 2013-04-06 19:36:06 · 38691 阅读 · 5 评论 -
缺失值处理
Here are some options:Use the feature’s mean value from all the available data.Fill in the unknown with a special value like -1.Ignore the instance.Use a mean value from similar items.Use an原创 2013-03-15 14:37:26 · 757 阅读 · 0 评论 -
逻辑回归
Logistic 回归延伸了多元线性回归思想,即因变量是二值(为了方便起见通常设这些值为 0 和 1)的情形。和在多元线性回归中一样,自变量 x1 , x2 ,..., xk 也许是类别变量或连续变量或是两种类型的混合。Logistic regressionPros: Computationally inexpensive, easy to implement, knowl原创 2013-03-11 22:40:37 · 856 阅读 · 0 评论 -
知识细节
非参数统计数理统计学的一个分支。如果在一个统计问题中,其总体分布不能用有限个实参数来刻画,只能对它作一些诸如分布连续、有密度、具有某阶矩等一般性的假定,则称之为非参数统计问题。optimization algorithm:The first optimization algorithm we’re going to look at is called gradient原创 2013-03-07 21:54:26 · 917 阅读 · 0 评论 -
decision tree
recent surveys claim that it’s the most commonly used technique.One of the best things about decision trees is that humans can easily understand the data.The decision tree does a great job of di原创 2013-03-06 21:43:21 · 825 阅读 · 0 评论 -
KNN算法理解
一、算法概述1、kNN算法又称为k近邻分类(k-nearest neighbor classification)算法。最简单平凡的分类器也许是那种死记硬背式的分类器,记住所有的训练数据,对于新的数据则直接和训练数据匹配,如果存在相同属性的训练数据,则直接用它的分类来作为新数据的分类。这种方式有一个明显的缺点,那就是很可能无法找到完全匹配的训练记录。kNN算法则是从训练集中找转载 2013-03-06 20:51:00 · 95553 阅读 · 10 评论 -
ETL
ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程)作为BI/DW(Business Intelligence)的核心和灵魂,能够按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程,是实施数据仓库的重要步骤。如果说数据仓库的模型设计是一座大厦的设计蓝图,数据是砖瓦的话,那么ETL就是建设大厦的过程。在整个项目中最难部分是用户需求原创 2013-04-19 14:13:07 · 840 阅读 · 0 评论