
数据处理
文章平均质量分 58
王亨
这个作者很懒,什么都没留下…
展开
-
数据质量分析
在数据分析和数据挖掘之前,我们首先要做的就是对数据进行预处理,将那些所谓的“脏数据”给去除掉,提高数据分析和挖掘的准确性和有效性。也就是说数据质量分析是数据挖掘和数据分析的重要开头。只有正确有效的数据才能挖掘出真正隐藏的信息。否则则会导致很严重的损失。说到数据预处理,他有多种方法,比如:数据清理,数据集成,数据变换,数据归约等。这些数据处理技术在数据挖掘之前使用,大大提高了数据挖掘模式的质量,降低原创 2016-03-10 00:32:31 · 17988 阅读 · 0 评论 -
R语言常用函数总结大全
今天把R常用函数大体汇总了一下,其中包括一般数学函数,统计函数,概率函数,字符处理函数,以及一些其他函数;1.数学函数 函数 作用 abs() 绝对值 sqrt() 平方根 ceiling(x) 不小于x的最小整数 ...原创 2017-03-12 09:01:58 · 75030 阅读 · 11 评论 -
R语言之矩阵操作
R语言作为一门统计语言,肯定缺少不了矩阵处理。今天来总结出来以下关于矩阵运算的函数,其中包括矩阵的求和,转置,内积,外积等。+, -, * , /矩阵的四则运算,对应位置的元素进行运算要求矩阵的维数必须相同t()矩阵的行列转置colSums()分别对矩阵的每一列进行求和原创 2016-10-23 02:25:51 · 54256 阅读 · 1 评论 -
使用R实现一个简单的连续系统模拟
连续系统就是指状态随着时间连续变化的系统。我们通过计算机模拟对连续系统得到的结果只是近似的,但如果只要这种近似达到了一定的精度,也就可以满足要求。连续系统模拟的一般方法就是首先建立系统的连续模型,然后转换为一个离散模型,并对该模型进行模拟。下面是一个追逐问题。 在一个正方形ABCD的4个顶点处各站一个人。在某一个时刻,4个人同时出发,均以匀速v走向顺时针的下一个人,假原创 2016-08-01 20:40:59 · 3968 阅读 · 0 评论 -
标准差 标准误 偏度系数和峰度系数的作用
标准差和标准误是两个不同的概念,标准误的计算公式为标准误在标准差的基础上消去了数据量带来的影响,对一些数据量相差大的数据集来说,标准误比标准差更有意义。偏度系数和峰度系数是一个可以用来衡量数据集的分布形状的系数。偏度系数的计算公式如下: 它是一个取值通常在-3--3之间的值,它衡量了数据集的对称程度。偏度系数越接近0,这说明数据集越对称,越远原创 2016-08-01 01:47:41 · 41607 阅读 · 2 评论 -
异常值的观测
异常值是数据集较为特殊的一类值,指距离大部分数据点明显较远的值。他的产生原因可能是数据录入错误,数据产生条件与其他数据不一致或小概率事件等。并且,异常值对数据分析的结果影响也很大。观测异常值:箱线图箱线图是一种根据极值,四分位数,和中位数画出的图形,图中还标出了常规意义上的异常值,即距离中位数远于三个标准差的值。我们可以使用Boxplot( )函数画出箱线图,箱线图原创 2016-06-27 17:45:55 · 3168 阅读 · 0 评论 -
R语言日期数据处理
在处理一些数据中,我经常遇到一些日期数据,今天就来说说对于不同格式的日期数据该怎么处理。下面是一些常用来处理的函数。as.Date(x, ...)## S3 method for class 'character'as.Date(x, format, ...)## S3 method for class 'numeric'as.Date(x, origin, ...)## S3 method fo...原创 2018-04-25 13:45:48 · 20347 阅读 · 1 评论