
数据挖掘
黑子小明
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
数据挖掘前景与现状
职业介绍 数据挖掘(Data Mining)就是从大量数据中发现潜在规律、提取有用知识的方法和技术。因为与数据库密切相关,又称为数据库知识发现(Knowledge Discovery in Databases,KDD) ,就是将高级智能计算技术应用于大量数据中,让计算机在有人或无人指导的情况下从海量数据中发现潜在的,有用的模式(也叫知识)。 广义上说,任何从数据库中挖掘信息的过程都转载 2015-03-17 16:22:11 · 2650 阅读 · 0 评论 -
MATLAB 统计分析
做散点图:gscatter函数可以按分类或分组来画离散点,适用于画多个类别的离散样本分布图。使用方法:gscatter(x,y,group)gscatter(x,y,group,clr,sym,siz)gscatter(x,y,group,clr,sym,siz,doleg)gscatter(x,y,group,clr,sym,siz,doleg,xnam,yn原创 2015-04-14 15:55:42 · 1717 阅读 · 0 评论 -
朴素贝叶斯分类
先上问题吧,我们统计了14天的气象数据(指标包括outlook,temperature,humidity,windy),并已知这些天气是否打球(play)。如果给出新一天的气象指标数据:sunny,cool,high,TRUE,判断一下会不会去打球。table 1outlooktemperaturehumiditywindy转载 2015-04-01 17:02:58 · 737 阅读 · 0 评论 -
K-均值聚类
K-means也是聚类算法中最简单的一种了,但是里面包含的思想却是不一般。最早我使用并实现这个算法是在学习韩爷爷那本数据挖掘的书中,那本书比较注重应用。看了Andrew Ng的这个讲义后才有些明白K-means后面包含的EM思想。 聚类属于无监督学习,以往的回归、朴素贝叶斯、SVM等都是有类别标签y的,也就是说样例中已经给出了样例的分类。而聚类的样本中却没有给定y,只有特征x,比如转载 2015-03-31 14:32:47 · 598 阅读 · 0 评论 -
Adaboost 算法
转自:http://blog.youkuaiyun.com/haidao2009/article/details/7514787 浅谈 Adaboost 算法 机器学习是利用一些方法来使机器实现人的学习行为,以便获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。 AdaBoost全名“adaptive Boost” 一 B转载 2015-03-30 15:07:03 · 421 阅读 · 0 评论 -
机器学习问题方法总结
机器学习问题方法总结大类名称关键词有监督分类决策树信息增益分类回归树Gini指数,Χ2统计量,剪枝朴素贝叶斯非参数估计,贝叶斯估计线性判别分析Fishre判别,特征向量求解K最邻近转载 2015-03-30 14:51:25 · 485 阅读 · 0 评论 -
(决策树)ID3算法
从信息论知识中我们直到,期望信息越小,信息增益越大,从而纯度越高。所以ID3算法的核心思想就是以信息增益度量属性选择,选择分裂后信息增益最大的属性进行分裂。下面先定义几个要用到的概念。 设D为用类别对训练元组进行的划分,则D的熵(entropy)表示为: 其中pi表示第i个类别在整个训练元组中出现的概率,可以用属于此类别元素的数量除以训练元组元素总数量作为估计。熵的转载 2015-03-30 14:37:15 · 1681 阅读 · 0 评论 -
(决策树)CART算法
分类回归树(CART,Classification And Regression Tree)也属于一种决策树,上回文我们介绍了基于ID3算法的决策树。作为上篇,这里只介绍CART是怎样用于分类的。分类回归树是一棵二叉树,且每个非叶子节点都有两个孩子,所以对于第一棵子树其叶子节点数比非叶子节点数多1。表1名称体温表面覆盖胎生产蛋能飞水生有腿转载 2015-03-30 14:57:39 · 943 阅读 · 0 评论 -
(决策树)C4.5算法
C4.5决策树在ID3决策树的基础之上稍作改进,请先阅读ID3决策树。C4.5克服了ID3的2个缺点:1.用信息增益选择属性时偏向于选择分枝比较多的属性值,即取值多的属性2.不能处理连贯属性OutlookTemperatureHumidityWindyPlayGolf?sunny8585FALSEno转载 2015-03-30 14:39:49 · 704 阅读 · 0 评论 -
机器学习&数据挖掘笔记_16(常见面试之机器学习算法思想简单梳理)
前言: 找工作时(IT行业),除了常见的软件开发以外,机器学习岗位也可以当作是一个选择,不少计算机方向的研究生都会接触这个,如果你的研究方向是机器学习/数据挖掘之类,且又对其非常感兴趣的话,可以考虑考虑该岗位,毕竟在机器智能没达到人类水平之前,机器学习可以作为一种重要手段,而随着科技的不断发展,相信这方面的人才需求也会越来越大。 纵观IT行业的招聘岗位,机器学习之类的岗位还是挺少的,国转载 2015-03-29 17:05:03 · 510 阅读 · 0 评论 -
数据挖掘的数据处理
从数据本身来考虑,数据挖掘通常需要有信息收集、数据集成、数据规约、数据清理、数据变换、数据挖掘实施过程、模式评估和知识表示8个步骤。步骤(1)信息收集:根据确定的数据分析对象,抽象出在数据分析中所需要的特征信息,然后选择合适的信息收集方法,将收集到的信息存入数据库。对于海量数据,选择一个合适的数据存储和管理的数据仓库是至关重要的。步骤(2)数据集成:把不同来源、格式、特点性质的数据在逻辑上转载 2015-03-29 16:59:08 · 783 阅读 · 0 评论 -
面试总结
腾讯一面(基础研究)1.自我介绍(主要介绍了自己的本科和研究生主攻的方向,简单介绍了一下自己的兴趣爱好)2.出两道题:文本聚类,文本查重;链表插入删除。5分钟后提交,不会的说一下思路。3.根据我前面的说一下k-means,其改进方向,优缺点。4.自己做得文本挖掘项目。5.自己做得图像识别项目,opencv有哪些应用,介绍haar特征,并介绍其分类器是怎么训练的。6.pca的原创 2015-09-15 08:35:11 · 400 阅读 · 0 评论