- 博客(24)
- 资源 (19)
- 收藏
- 关注
原创 聚类分析——K-Means算法
K-Means算法这是基于划分的聚类算法,该算法效率较高,对大规模数据进行聚类时被广泛使用。基本思路:把数据集划分成k个簇,每个簇内部的样本非常相似,不同簇之间的差异非常大。K-Means算法是一个迭代算法,先随机选择k个对象,每个对象代表了起中心,对于剩下的对象,将其赋给最近的簇,然后重新计算簇的中心。不断重复,直到准则函数收敛。算法:1 数据预处理l 连续属性:标准化
2015-03-12 20:47:21
1179
原创 R语言学习备忘录(三):数组、矩阵、列表和数据框、因子的应用
数组、矩阵、列表和数据框的应用#R语言备忘录三##数组array和矩阵matrix、列表list、数据框dataframe#数组#数组的重要属性就是dim,维数#得到4*5的矩阵z <- 1:12dim(z) <- c(3,4)z#构建数组x <- array(1:20, dim = c(4,5))#三维y <- array(1:18, dim = c(2,3,3)
2015-01-25 16:33:40
3327
原创 统计学习方法笔记(三):K近邻法
一、基本概念k近邻法(k nearest neighbor, k-NN)是一种基本的分类和回归方法,简单、直观。当用来分类时,给定一个训练集,对于新输入实例,找到最近的k个训练样例,然后根据训练样例确定新样例的分类。k近邻法的三个基本要素:距离度量、K值、分类决策规则。1、距离度量:不同距离度量方法导致结果不同。2、k值的选择k值的选择对于算法的结果有很大的影响,如
2015-01-23 22:04:07
917
转载 k近邻法:R实现(二)
转载于:使用R完成K近邻分类除了上文的方法以外,也可以使用R包kknn使用数据集iris, 验证Petal.Length, Petal.Width两个特征的分类能力。代码如下:#使用数据集iris,先呈图查看一下关系with(iris, plot(Petal.Length, Petal.Width, col=as.integer(Species))) text(2.2, 0.
2015-01-23 20:38:57
1424
转载 k近邻法:R实现(一)
转载于:机器学习算法的R语言实现(一):KNNKNN是有监督的学习算法,其特点有:1、精度高,对异常值不敏感2、只能处理数值型属性3、计算复杂度高(如已知分类的样本数为n,那么对每个未知分类点要计算n个距离) KNN算法步骤:需对所有样本点(已知分类+未知分类)进行归一化处理。然后,对未知分类的数据集中的每个样本点依次执行以下操作:1、计算已知类别数据集中的
2015-01-23 17:29:37
2022
原创 R语言学习备忘录(一):向量运算
个人学习的笔记#R语言学习备忘录一##向量运算#x <- c(1,2,3,6)#不小于x的最小整数 ceiling(x)#不大于x的最大整数 floor(x) #向0方向截取的x中的整数 trunc(x) #将x舍入为指定位的小数 round(x,digits=2) #将x舍入指定的有效数字位数 signif(x,digits=2) #三角函数 cos(x) s
2015-01-23 11:13:04
1278
原创 R语言扩展包dplyr——数据清洗和整理
该包主要用于数据清洗和整理,coursera课程链接:Getting and Cleaning Data也可以载入swirl包,加载课Getting and Cleaning Data跟着学习。如下:library(swirl)install_from_swirl("Getting and Cleaning Data")swirl()此文主要是参考R自带的简介:Introd
2015-01-22 18:04:39
37216
3
原创 R语言数据整理作业
作业:现在,所有数据科学中最令人兴奋的领域之一就是可穿戴计算 - 请看这篇文章。公司(例如,Fitbit、Nike和Jawbone Up)正在竞相发展最先进的算法来吸引新用户。与课程网站关联的数据表示从三星Galaxy S智能手机的加速器上收集的数据。完整的解释可在获得数据的网站上获取:http://archive.ics.uci.edu/ml/datasets/Human+Act
2015-01-22 15:33:36
3342
原创 朴素贝叶斯分类器:MATLAB工具箱实现
MATLAB工具箱的statistic toolbox中有naivebayes的类,可以直接使用。使用默认的高斯分布和混淆矩阵:>> load fisheriris>> O1 = fitNaiveBayes(meas,species); 生成其中,NClass是因变量的频数,ClassLevels则是因变量类别,prior为类别的频率。NDims是特征数量,Dis
2015-01-20 16:52:26
9619
2
转载 朴素贝叶斯分类器:R语言实现
转载自:机器学习算法的R语言实现(三):朴素贝叶斯分类器1、引子朴素贝叶斯方法是一种使用先验概率去计算后验概率的方法,其中朴素的意思实际上指的是一个假设条件,后面在举例中说明。本人以为,纯粹的数学推导固然有其严密性、逻辑性的特点,但对我等非数学专业的人来说,对每一推导步骤的并非能透彻理解,我将从一个例子入手,类似于应用题的方式,解释朴素贝叶斯分类器,希望能对公式的理解增加形象化的场
2015-01-19 23:00:02
9480
3
原创 感知机——R实现
转载自:感知机(python实现)增加了一点自己的笔记。对于训练数据集,其中正例点是x1=(3,3)T,x2=(4,3)T,负例点为x3=(1,1)T,用感知机学习算法的原始形式求感知机模型f(x)=w·x+b。这里w=(w(1),w(2))T,x=(x(1),x(2))T解:构建最优化问题:按照算法求解w, b。η=1(1)
2015-01-16 20:52:54
4534
原创 统计学习方法笔记(二)感知机学习
感知机是二类分类模型,输出值为-1,1,为判别模型输入空间到输出空间的函数如下:w叫权值,b叫偏置。即求出一个超平面把特征空间分成两部分,使两部分分别被分为正负两类,为分离超平面。如图:应用条件:数据集是线性可分的,存在使得数据集都能正确的划分在超平面的两侧。损失函数:对于误分类的数据:误分类点到超平面的距离:
2015-01-15 22:55:12
1366
原创 统计学习方法笔记(一)——统计学习的基本概念
统计学习的三要素:方法 = 模型 + 策略 + 算法1、模型模型就是要学习的条件概率分布或决策函数。模型的假设空间包含所有可能的条件概率分布或决策函数。空间用F表示,假设空间可以定义为决策函数的集合,即:F通常是由一个参数向量来决定的条件概率分布族2、策略有了模型的假设空间,则要考虑选择什么准则学习或者说是选择最优的模型。则引入了损失函数和风险函数。损失
2015-01-15 19:02:04
1204
原创 不同方法的正态性检验及R语言实现
统计学中的t检验法和F检验法的应用条件是样本都来自正态总体或近似正态总体,只有符合这个条件,才能用它们来检验各样本所属的总体参数的差异显著性。一、非参数检验1、Kolmogorov-Smirnov正态性检验(单样本)检验单一样本是否来自某一特定分布。比如检验一组数据是否为正态分布。它的检验方法是以样本数据的累积频数分布与特定理论分布比较,若两者间的差距很小,则推论该样本取自
2015-01-13 20:47:36
32139
1
原创 数据基本参数
数据来源:学生成绩排名预测>setwd("C:/Users/fss/Desktop")> data > head(data,2) 学期 学号 书号 图书馆门禁_时间 地点消费_时间金额 日期 排名1 1 55 1297346 92854 图书馆 104218 0.64 916 232 1 55 1297346
2015-01-13 20:45:52
1140
转载 了解向量、因子、矩阵、数组、列表和数据框、时间序列(R语言)
资料来自于:R语言入门经典1、向量(Vector) :函数vector有两个参数:类型(mode)和长度(length),创建的向量中元素值取决于参数所指定的数据类型:数值型向量则元素值都为0,逻辑型都为FALSE,字符型都为""。以下三个函数有几乎相同的效果(创建一个向量)并且只有一个参数即长度:numeric(),logical(),和character()。
2015-01-12 20:09:56
3592
原创 Andrew Ng机器学习笔记(五)——生成学习算法和朴素贝叶斯算法
1、生成学习算法之前讲的回归模型属于判别模型,今天引入新的模型——生成学习算法:对训练集建立两个概率模型,测试特征代入两个模型比较哪个模型的最终概率高来判断类别(而不是计算出两个概率,而是比较两个概率)利用贝叶斯概率得到两个模型的统一性:对p(x|y)和p(y)建模后,根据贝叶斯公式p(y|x) = p(xy)/p(x) = p(x|y)p(y)/p(x),其中,p(x) = p(
2015-01-10 22:04:39
2816
原创 R语言初学笔记
内容包括153分钟学会R和R Programming课程的笔记,比较凌乱,只是对自己需要记录的知识做了整理。暂不涉及统计模型和判断循环函数。 虽不是第一次接触R语言了,但是现在想静下来心来把它学下来。 1、CRAN是什么CRAN是 Comprehensive R ArchiveNetwork 的简写,是拥有同一资料,包括 R 的发布版本,包文档和源代码的网络集合。 2、如何
2015-01-09 12:16:23
2958
原创 Andrew Ng机器学习笔记(四)——GLM广义线性模型
指数分布族:若y属于实数,满足高斯分布,得到基于最小二乘法的线性回归;若y取{0,1},满足伯努利分布,得到Logistic回归。高斯分布和伯努利分布都是指数分布族的特例。下面说明以上两种都是GLM的特例指数分布族:如果它的概率分布可以表示为下面的形式:一般来说,T(y)=y,改变η可以得到不同的概率分布。证明伯努利分布是指数分布族:即:
2015-01-07 11:02:43
2354
原创 Andrew Ng机器学习笔记(三)——牛顿算法
复习:Logistic回归:分类算法假设给定x以为参数的y=1和y=0的概率:求对数似然性:对其求偏导数,应用梯度上升方法,求得。本次课程介绍的牛顿方法是一种比梯度上升快很多的方法,用于拟合Logistic回归推导图:当要求解f(θ) = 0时,如
2015-01-07 10:57:22
1311
原创 Andrew Ng机器学习笔记(二):多变量线性回归
对于一个监督学习模型来说,过小的特征集合使得模型过于简单,过大的特征集合使得模型过于复杂。对于特征集过小的情况,称之为欠拟合(underfitting);对于特征集过大的情况,称之为过拟合(overfitting) 解决此类学习问题的方法:1) 特征选择算法:一类自动化算法,在这类回归问题中选择用到的特征2) 非参数学习算
2015-01-05 18:45:54
1073
原创 Andrew Ng机器学习笔记(一):梯度下降法
假设线性回归方程为:y为实际值,为了使得拟合最佳,则要实现:注:1/2是为了计算方便,无实际意义。顾引入了梯度下降法,使得每一步都是向下降速度最快的那个方向,而最终也一定会收敛。(获得的是局部最优)
2015-01-05 14:27:52
2251
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人