
数据挖掘
zrjdds
在校学生
展开
-
用Tagxedo在线制作个性化词云
http://www.itongji.cn/article/01063b62015.html词云,或者叫文字云,就是对网络文本中出现频率较高的“关键字”予以视觉上的突出,形成“关键词云层”或“关键词渲染”,从而过滤掉大量的文本信息,使浏览网页者只要一眼扫过文本就可以领略文本的主旨。沈浩老师曾在搜狐博客分享过一篇关于词云制作的文章,详细的描述了个性化词云制作的思路和工具。今天小兵也来学习转载 2015-11-13 11:31:50 · 5276 阅读 · 1 评论 -
用平常语言介绍神经网络
http://blog.youkuaiyun.com/zzwu/article/details/574931/游戏编程中的人工智能技术 (连载之一)用平常语言介绍神经网络(Neural Networks in Plain English)因为我们没有能够很好了解大脑,我们经常试图用最新的技术作转载 2015-12-12 18:03:18 · 15533 阅读 · 1 评论 -
一篇关于机器学习的温和指南
机器学习是人工智能的一个分支,它通过构建算法让计算机学习,并且在数据集上使用这些算法来完成任务,而不需要进行明确编码。明白了吗?我们可以让机器去学习如何做事情!当我第一次听到它的时候,让我非常兴奋。那意味着我们可以对计算机进行编码,让它们自己去学习东西!学习的能力是智能最重要的一个方面。将这种能力运用到机器上,应该是向让计算机更智能迈出了一大步。事实上,机器学习是如今人工智能领域中转载 2015-12-13 11:27:57 · 4432 阅读 · 0 评论 -
非常好的理解遗传算法的例子
遗传算法的手工模拟计算示例为更好地理解遗传算法的运算过程,下面用手工计算来简单地模拟遗传算法的各 个主要执行步骤。 例:求下述二元函数的最大值: (1) 个体编码 遗传算法的运算对象是表示个体的符号串,所以必须把变量 x1, x2 编码为一种 符号串。本题中,用无符号二进制整数来表示。转载 2015-12-13 13:14:52 · 4343 阅读 · 0 评论 -
独立成分分析(Independent Component Analysis)
http://blog.youkuaiyun.com/ffeng271/article/details/7353881独立成分分析(Independent Component Analysis)1. 问题: 1、上节提到的PCA是一种数据降维的方法,但是只对符合高斯分布的样本点比较有效,那么对于其他分布的样本,有没有主元分解的方法呢? 2、经典的鸡尾酒宴转载 2015-12-15 17:15:43 · 5158 阅读 · 0 评论 -
机器学习中PCA和ICA的理解
在高维数据处理中,为了简化计算量以及储存空间,需要对这些高维数据进行一定程度上的降维,并尽量保证数据的不失真。PCA和ICA是两种常用的降维方法。PCA:principal component analysis ,主成分分析ICA :Independent component analysis,独立成分分析PCA,ICA都是统计理论当中的概念,在机器学习当中应用转载 2015-12-15 17:12:54 · 18825 阅读 · 1 评论 -
处理多重共线性
(一)删除不重要的自变量自变量之间存在共线性,说明自变量所提供的信息是重叠的,可以删除不重要的自变量减少重复信息。但从模型中删去自变量时应该注意:从实际经济分析确定为相对不重要并从偏相关系数检验证实为共线性原因的那些变量中删除。如果删除不当,会产生模型设定误差,造成参数估计严重有偏的后果。(二)追加样本信息(不过实际操作中,这个方法实现率不高)多重共线性问题的实质是样本信息的不充分转载 2015-12-16 11:49:29 · 4643 阅读 · 0 评论 -
TwoStep Cluster
http://blog.sina.com.cn/s/blog_6c3609720100o43t.html TwoStep Cluster属于近年来才发展起来的智能聚类方法的一种,用于解决海量数据,复杂类别结构时的聚类分析问题。与传统的层次聚类和快速聚类法相比,两步聚类法有鲜明的特点。 首先,用于聚类的变量可以使连续变量,也可以是离散变量,不必像其他算法那样,在进行聚类转载 2015-12-16 11:50:54 · 2625 阅读 · 0 评论 -
数据挖掘算法之离散化和二元化
转载自:http://deepfuture.iteye.com/blog/1395669离散化和二元化有些数据挖掘算法,特别是某些分类算法,要求数据是分类属性形式。发现关联模式的算法要求数据是二元属性形式。这样,常常需要将连续属性变换成分类属性(离散化,discretization),并且连续和离散属性可能都需要变换成一个或多个二元属性(二元化,binarization)。此外转载 2015-12-16 09:19:27 · 2945 阅读 · 0 评论 -
数据挖掘系统的分类
http://www.itongji.cn/article/0GI32011.html 数据挖掘系统的分类数据挖掘是一个交叉学科领域,受多个学科影响(见图1-12),包括数据库系统、统计学、机器学习、可视化和信息科学。此外,依赖于所用的数据挖掘方法,可以使用其他学科的技术,如神经网络、模糊和/或粗糙集合论、知识表示、归纳逻辑程序设计或高性能计算。依赖于所挖掘的数据类型或给定的数据挖掘应转载 2015-12-02 09:25:12 · 3623 阅读 · 0 评论 -
The ID3 Algorithm
From http://www.cise.ufl.edu/~ddd/cap6635/Fall-97/Short-papers/2.htm Abstract This paper details the ID3 classification algorithm. Very simply, ID3 builds a decision tree from a fixed set of转载 2015-12-01 20:44:15 · 1358 阅读 · 0 评论 -
70个大数据集
http://www.china-cloud.com/yunjishu/shujuzhongxin/20140618_38544.html你是否需要大量的数据来检验你的APP性能?最简单的方法是从网上免费数据存储库下载数据样本。但这种方法最大的缺点是数据很少有独特的内容并且不一定能达到预期的结果。以下是70多家可以获得免费大数据存储库的网站。Wikipedia:Data转载 2015-12-07 16:34:48 · 24188 阅读 · 0 评论 -
概率基础和R语言
转载自:http://blog.fens.me/r-probability/R的极客理想系列文章,涵盖了R的思想,使用,工具,创新等的一系列要点,以我个人的学习和体验去诠释R的强大。R语言作为统计学一门语言,一直在小众领域闪耀着光芒。直到大数据的爆发,R语言变成了一门炙手可热的数据分析的利器。随着越来越多的工程背景的人的加入,R语言的社区在迅速扩大成长。现在已不仅仅是统转载 2015-12-09 14:15:14 · 4019 阅读 · 0 评论 -
常用连续型分布介绍及R语言实现
转载自:http://blog.fens.me/series-r/R的极客理想系列文章,涵盖了R的思想,使用,工具,创新等的一系列要点,以我个人的学习和体验去诠释R的强大。R语言作为统计学一门语言,一直在小众领域闪耀着光芒。直到大数据的爆发,R语言变成了一门炙手可热的数据分析的利器。随着越来越多的工程背景的人的加入,R语言的社区在迅速扩大成长。现在已不仅仅是统计领域,教转载 2015-12-09 14:13:22 · 6089 阅读 · 1 评论 -
机器学习算法与Python实践之支持向量机
机器学习算法与Python实践之(二)支持向量机(SVM)初级zouxy09@qq.comhttp://blog.youkuaiyun.com/zouxy09 机器学习算法与Python实践这个系列主要是参考《机器学习实战》这本书。因为自己想学习Python,然后也想对一些机器学习算法加深下了解,所以就想通过Python来实现几个比较常用的机器学习算法。恰好遇见这转载 2015-12-13 22:32:10 · 4078 阅读 · 0 评论 -
数据挖掘十大算法----EM算法(最大期望算法)
http://www.tuicool.com/articles/Av6NVzy概念在统计计算中,最大期望(EM)算法是在概率(probabilistic)模型中寻找参数最大似然估计或者最大后验估计的算法,其中概率模型依赖于无法观测的隐藏变量(Latent Variable)。最大期望经常用在机器学习和计算机视觉的数据聚类(Data Clustering)领域转载 2015-12-12 17:43:45 · 2311 阅读 · 0 评论 -
AdaBoost--从原理到实现
http://blog.youkuaiyun.com/dark_scope/article/details/14103983一.引入 对于Adaboost,可以说是久闻大名,据说在Deep Learning出来之前,SVM和Adaboost是效果最好的 两个算法,而Adaboost是提升树(boosting tree),所谓“提升树”就是把“弱学习算法”提升(b转载 2015-12-12 16:37:17 · 869 阅读 · 0 评论 -
古典音乐与R数据分析
虾米音乐网用户是怎么听音乐的最近发觉数据分析/数据挖掘是相当的有意思,表现在:当你手头有一大堆的数据,怎么以一种创造性的或者深刻的视角,去发现数据背后的意义?探索这种数据分析/数据挖掘的视角,跟我们去读一些哲思散文,或者是看综艺节目《罗辑思维》、《奇葩说》等,其中的趣味性是类似的。因此,最近业余时间,一直在了解R语言和学习数据挖掘。学到一点皮毛,就欣欣然想做点专题分析,跃跃欲试。然而做什么原创 2015-11-13 22:57:39 · 2401 阅读 · 0 评论 -
R语言学习英语
提升英文能力,最好的方法是阅读英文小说。因为语言类的学习,必须要有大的输入和大的输出。但是,阅读英文小说,对于我们最大的难度是,词汇量不够影响正常的阅读。 例如,用kindle看小说,虽然可以利用kindle的翻译词典,但一页书,十几个不认识的单词,也是没法读的。有没有什么好的方法来解决这个问题呢? 1. 下载喜欢的mobi格式的英文小说,kindle114网站上大把。原创 2015-11-15 21:08:12 · 2160 阅读 · 1 评论 -
常用的抽样方法
转载自:http://tj.100xuexi.com/view/specdata/20100207/0CD3F00B-3980-4C39-AF91-2603851CE2CA.html1.非概率抽样(Non-probability sampling) 又称非随机抽样,指根据一定主观标准抽取样本,令总体中每个个体的被抽取不是依据其本身的机会,而是完全决定于调研者的意愿。 其特点转载 2015-12-09 08:39:25 · 15841 阅读 · 0 评论 -
常用的机器学习&数据挖掘知识(点)总结
转载自:http://dataunion.org/14926.htmlBasis(基础):MSE(Mean Square Error 均方误差),LMS(LeastMean Square 最小均方),LSM(Least Square Methods 最小二乘法),MLE(MaximumLikelihood Estimation最大似然估计),QP(Q转载 2015-12-10 01:02:27 · 4522 阅读 · 0 评论 -
传播最广的一篇SVM算法博文
转载自:http://dataunion.org/15483.html又有很长的一段时间没有更新博客了,距离上次更新已经有两个月的时间了。其中一个很大的原因是,不知道写什么好-_-,最近一段时间看了看关于SVM(Support Vector Machine)的文章,觉得SVM是一个非常有趣,而且自成一派的方向,所以今天准备写一篇关于关于SVM的文章。关于SVM的论文、书籍都非常的多转载 2015-12-10 00:51:50 · 1239 阅读 · 0 评论 -
SVM在R语言中的应用
支持向量机是一个相对较新和较先进的机器学习技术,最初提出是为了解决二类分类问题,现在被广泛用于解决多类非线性分类问题和回归问题。继续阅读本文,你将学习到支持向量机如何工作,以及如何利用R语言实现支持向量机。支持向量机如何工作?简单介绍下支持向量机是做什么的:假设你的数据点分为两类,支持向量机试图寻找最优的一条线(超平面),使得离这条线最近的点与其他类中的点的距离最大。有些时转载 2015-12-10 05:32:57 · 12639 阅读 · 2 评论 -
各种数据挖掘模型的使用条件
线性回归:适用于线性关系,非线性关系将会导致准确度变差 PCA:连续型变量原创 2015-12-10 17:01:47 · 1227 阅读 · 0 评论 -
Self Organizing Maps
转自:http://davis.wpi.edu/~matt/courses/soms/Table Of ConentsI. Introduction to Self-Organizing MapsII. ComponentsA. Sample DataB. WeightsIII. Main AlgorithmA. Initializing the W转载 2015-11-24 09:03:41 · 2633 阅读 · 0 评论 -
关于机器学习
转载自:http://www.ctocio.com/hotnews/15919.html 机器学习无疑是当前数据分析领域的一个热点内容。很多人在平时的工作中都或多或少会用到机器学习的算法。这里IT经理网为您总结一下常见的机器学习算法,以供您在工作和学习中参考。机器学习的算法很多。很多时候困惑人们都是,很多算法是一类算法,而有些算法又是从其他算法中延伸出来的。这里,我们从两个方面来给大家转载 2015-12-11 12:48:02 · 717 阅读 · 0 评论 -
R语言:基本变量及其之间关系探索分析
转载自:http://www.douban.com/note/287485797/?type=like一、查看数据结构dim(iris) # 了解数据集的维度,有多少行多少列?names(iris) # 数据有哪些列?str(iris) # 数据的结构如何?attributes(iris) # 数据的列名、行名和数据结构然后看看数据集前几行和后几转载 2015-12-10 17:09:50 · 8373 阅读 · 0 评论 -
数据挖掘基本模型一览
列举基本的数据挖掘模型原创 2015-12-03 15:00:02 · 2515 阅读 · 0 评论 -
浅谈 Adaboost 算法
http://blog.youkuaiyun.com/haidao2009/article/details/7514787菜鸟最近开始学习machine learning。发现adaboost 挺有趣,就把自己的一些思考写下来。主要参考了http://stblog.baidu-tech.com/?p=19,其实说抄也不为过,但是我添加了一些我认为有意思的东西,所以我还是把它转载 2015-12-12 16:15:41 · 2305 阅读 · 0 评论 -
缺失值的处理方法
转载自http://blog.sina.com.cn/s/blog_670445240102v08m.html 对于数据挖掘和分析人员来说,数据准备(Data Preparation,包括数据的抽取、清洗、转换和集成)常常占据了70%左右的工作量。而在数据准备的过程中,数据质量差又是最常见而且令人头痛的问题。本文针对缺失值和特殊值这种数据质量问题,进行了初步介绍并推荐了一些处理方法。值转载 2015-12-08 19:31:12 · 46844 阅读 · 0 评论