
统计分析与数据挖掘
文章平均质量分 63
大胖5566
科学、技术与人文的统一和谐,本人邮箱moodytong@126.com
展开
-
R的基本使用(1)
R简介 R是一个开源的语言,提供了用来进行统计计算和可视化的软件工具环境。R语言被广泛的用来开发统计软件和数据分析中。R语言来自S,S来自贝尔实验室(1976)。(贝尔好牛) R的下载,去cran官网即可http://cran.r-project.org/ library()可以看到目前安装有哪些包,如果要添加的话,可以到cran官网等网站下载(可以goo原创 2012-10-17 16:47:01 · 3283 阅读 · 0 评论 -
常见面试之机器学习算法思想简单梳理
前言: 找工作时(IT行业),除了常见的软件开发以外,机器学习岗位也可以当作是一个选择,不少计算机方向的研究生都会接触这个,如果你的研究方向是机器学习/数据挖掘之类,且又对其非常感兴趣的话,可以考虑考虑该岗位,毕竟在机器智能没达到人类水平之前,机器学习可以作为一种重要手段,而随着科技的不断发展,相信这方面的人才需求也会越来越大。 纵观IT行业的招聘岗位,机器学习之类的岗位还是挺转载 2013-11-18 10:17:03 · 3940 阅读 · 1 评论 -
机器学习经典算法1--knn
一、算法简要 “物以类聚人以群分”是生活的现实写照,knn就是让那些距离近的人或物归为一类。 问题定义:基于给定的一些示例(事物的属性features和该事物的分类class),对于某个特定或一系列事物的features,来对未定事物进行分类classifying。 一般把给出了事物features和class的集合叫做测试集Traini原创 2013-07-24 17:30:31 · 8791 阅读 · 0 评论 -
机器学习经典算法7-线性回归
1.简单介绍 分类处理的是离散预测,而对于连续的值类型则可以利用回归进行预测,这里对主要的几个线性回归方法进行初步介绍。这里也有训练集和测试集。2.单变量线性回归的参数求解3.多变量线性回归4.利用矩阵进行参数求解5.局部加权线性回归6.岭回归7.编程实现 这里standMaReg实现的是原创 2013-08-18 09:53:38 · 18486 阅读 · 4 评论 -
机器学习经典算法6-AdaBoost
1.简单介绍 Boosting是由Michael Kearns的一个问题:“若弱学习算法是否可以成为强学习算法(或者弱分类器是否可以成为强分类器)”引发的。假设某个分类算法只比随机猜测的准确度高,那么如何才能得到错误率将近0的分类器呢?该答案由Rob Schapire给出,即采用多个学习或分类算法,吸取多方面的经验。2.Bagging 自举汇聚法(boostr原创 2013-08-10 19:06:36 · 4503 阅读 · 0 评论 -
机器学习经典算法10-Apriori
1.关联分析 通过查看哪些商品经常在一起购买,可以帮助商店了解用户的购买行为。这种从大量数据中抽取的知识可用于商品定价、市场促销、存货管理等环节。所谓关联,反映的是一个事物和其他事物之间依赖或关联的知识。从大规模数据集中寻找事物间的隐含关系称为关联分析(association analysis)或者关联规则学习(association rule mining)。原创 2013-08-19 15:55:53 · 2039 阅读 · 1 评论 -
how-to-learn-machine-learning
There are a few questions in the forums about what and where to learn Machine Learning(ML). The overview of this course also suggests some information during the last week of lectures. Since a lot o转载 2013-08-20 14:39:38 · 1875 阅读 · 0 评论 -
机器学习经典算法11-PCA
1.基本介绍 我们人眼最多能看到3维的东西,但是现实生活中有很多大于3维的东西,那么如何对这些数据进行可视化?此外,对多维的数据是否可以压缩以减小存储空间?这都可以用降维的方式达到目的,其中使用广泛的就是PCA(Principle Component Analysis),PCA可以用来降低算法计算开销、去除噪声、使得结果易于展示和理解等。 PCA可以看成在现有原创 2013-08-19 20:48:09 · 3613 阅读 · 0 评论 -
机器学习经典算法12-SVD及其在推荐中的应用
1.基本介绍 就个人看来,其实SVD(singular valur decomposition)和PCA的功能是一样的,可以用来降低维度、去除噪声,经过PCA和SVD处理后的数据可以做各种处理,包括之前的各个分类和回归的经典算法等,可以说SVD和PCA是高级别的预处理(相对于均值归一化、属性范围调整等)。2.SVD简要说明原创 2013-08-19 21:41:16 · 13282 阅读 · 6 评论 -
机器学习经典算法9-k-means
1.基本介绍 k原创 2013-08-19 11:02:08 · 2681 阅读 · 0 评论 -
机器学习经典算法8-树回归
1.简单介绍 线性回归方法可以有效的拟合所有样本点(局部加权线性回归除外)。当数据拥有众多特征并且特征之间关系十分复杂时,构建全局模型的想法一个是困难一个是笨拙。此外,实际中很多问题为非线性的,例如常见到的分段函数,不可能用全局线性模型来进行拟合。树回归将数据集切分成多份易建模的数据,然后利用线性回归进行建模和拟合。这里介绍较为经典的树回归CART(classificatio原创 2013-08-19 09:18:49 · 22814 阅读 · 11 评论 -
机器学习经典算法2-决策树
一、算法简要 决策树的基本理念就是通过不断的条件筛选,从而得到最后的答案。knn算法最大的缺点就是无法给出数据的内在含义,而决策树则在数据形式非常容易理解,有一定的实际意义。 这里所讲到的决策树非叶子节点的建立是依据信息增益和熵的概念,这个可以自己去查。通过计算按特定属性划分数据集前后发生的熵的变化,选择信息增益最大的特征属性作为分叉节点,从而一步一步进行决策原创 2013-07-29 11:20:33 · 3294 阅读 · 0 评论 -
机器学习经典算法4-logistic回归
一、算法简要 我们希望有这么一种函数:接受输入然后预测出类别,这样用于分类。这里,用到了数学中的sigmoid函数,sigmoid函数的具体表达式和函数图象如下: 可以较为清楚的看到,当输入的x小于0时,函数值0.5,将分类预测为1。1.1 预测函数的表示 1.2参数的求解二、代码实现 函数sigmoid计算相应原创 2013-08-03 12:47:09 · 10832 阅读 · 1 评论 -
机器学习经典算法5-支持向量机SVM
SVM是公认的较为不错的一个分类算法,下面将首先从SVM的设计之初理念说起,即利用间隔(gap)将数据分开;然后对如何建立优化的间隔分类器以及利用拉格朗日乘子;此外,为了更好的让SVM在基于高维特征的数据中有较好表现,对核函数kernels也进行了一些介绍和解释。关于间隔符号表示函数间隔和几何间隔拉格朗日算子核函数参数原创 2013-08-02 15:47:02 · 2136 阅读 · 0 评论 -
机器学习经典算法3-朴素贝叶斯
一、算法简要 贝叶斯是从统计概率的角度来进行分类,确切来说是条件概率,例如要猜是哪一类动物,该动物具备的特征是:四条腿、高度超过x米、哺乳动物,那么在这些特征前提下,计算其为哪种动物的概率。二、算法一般流程 1.数据的收集 2.数据的准备:数值型或布尔型 3.分析数据 4.训练算法:计算不同的独立特征的条件概率原创 2013-07-30 22:24:45 · 19105 阅读 · 0 评论 -
利用matlab进行简单的贝叶斯网络构建
matlab的安装 第一次装matlab,装好后发现没有在桌面生成图标,还以为是最后提示的编译器没有安装。结果发现,matlab的图标在其安装的bin目录下面,进行初始化就能开始使用了关于贝叶斯网络 1.简单的教程可以参照如下地址: http://cs.nyu.edu/faculty/davise/ai/bayesnet.html原创 2012-10-29 08:58:49 · 78612 阅读 · 39 评论 -
关于机器学习课程的小记
十分高兴自己无意中知道了https://www.coursera.org/这个网站,也十分高兴,Andrew NG在上面开设了机器学习的课程。 不得不说,在线教育是传统教育的一次伟大革新,视频中间夹着问题,这种新颖的方式感觉非常cool。 为了更好的让Andrew课造福大家,本人特地将相关视频、资料和总结进行了汇总。 视频+作业+答案+作业工具+总结:百度原创 2013-06-07 17:18:19 · 1790 阅读 · 3 评论