
数据挖掘
miner_zhu
这个作者很懒,什么都没留下…
展开
-
K-Means聚类的Python实践
K-Means应该是最简单的聚类算法之一了吧,理论上很简单,就是随即初始化几个中心点,不断的把他们周围的对象聚集起来,然后根据这群对象的重置中心点,不断的迭代,最终找到最合适的几个中心点,就算完成了。 然后,真正实践的时候才会思考的更加深入一点,比如本文的实践内容就是一个失败的案例(算法是成功的,场景是失败的)。什么是聚类简单的说,就是对于一组不知道分类标签的数据,可以通过聚类算法...转载 2018-07-23 16:20:35 · 282 阅读 · 0 评论 -
(转)数据挖掘从入门到进阶 要看什么书
做数据挖掘也有些年头了,写这篇文一方面是让我写篇文,朋友作为数据挖掘方面的参考,另一方面也是有抛砖引玉之意,希望能够和一些大牛交流,相互促进,让大家见笑了。 Q&A: Q:学习,最近在看集体智慧编程,楼主可否推荐下数学基础的书? A:我数学本身也不好 自己也在偷偷补 因为看的不多也不能给出个提纲式的建议 只能给您列下我近期看过和在看的觉得不错的书 您看做参考吧 矩阵...转载 2018-07-19 22:19:47 · 10397 阅读 · 0 评论 -
数据挖掘之数据仓库详述
数据仓库和数据挖掘的OLAP 技术构造数据仓库涉及数据清理和数据集成,可以看作数据挖掘的一个重要预处理步骤。此外,数据仓库提供联机分析处理(OLAP)工具,用于各种粒度的多维数据分析,有利于有效的数据挖掘。进一步讲,许多其它数据挖掘功能,如分类、预测、关联、聚集,都可以与 OLAP 操作集成,以加强多个抽象层上的交互知识挖掘。因此,数据仓库已经成为数据分析和联机数据分析处理日趋重要的平台,并将...转载 2018-07-19 22:06:44 · 6065 阅读 · 1 评论 -
数据挖掘之面临的主要问题
数据挖掘的主要问题本书强调数据挖掘的主要问题,考虑挖掘技术、用户界面、性能和各种数据类型。这些问题介绍如下:数据挖掘技术和用户界面问题:这反映所挖掘的知识类型、在多粒度上挖掘知识的能力、领域知识的使用、特定的挖掘和知识显示。1 在数据库中挖掘不同类型的知识:由于不同的用户可能对不同类型的知识感兴趣,数据挖掘系统应当覆盖广谱的数据分析和知识发现任务,包括数据特征、区分、关联、聚类...转载 2018-07-19 21:33:17 · 11754 阅读 · 0 评论 -
数据挖掘基础之要挖掘什么
数据挖掘功能——可以挖掘什么类型的模式? 我们已经观察了可以进行数据挖掘的各种数据存储和数据库系统。现在,让我们考察可以挖掘的数据模式。数据挖掘功能用于指定数据挖掘任务中要找的模式类型。一般地,数据挖掘任务可以分两类:描述和预测。描述性挖掘任务刻划数据库中数据的一般特性。预测性挖掘任务在当前数据上进行推断,以进行预测。在某些情况下,用户不知道他们的数据中什么类型的模式是有趣的,因此可能...转载 2018-07-19 21:24:04 · 2517 阅读 · 0 评论 -
数据挖掘基础之数据库
最近出现的一种数据库结构是数据仓库(1.3.2 小节)。这是一种多个异种数据源在单个站点以统一的模式组织的存储,以支持管理决策。数据仓库技术包括数据清理、数据集成和联机分析处理(OLAP)。OLAP 是一种分析技术,具有汇总、合并和聚集功能,以及从不同的角度观察信息的能力。尽管 OLAP 工具支持多维分析和决策,对于深层次的分析,如数据分类、聚类和数据随时间变化的特征,仍然需要其它分析工具。...转载 2018-07-19 21:11:37 · 6068 阅读 · 0 评论 -
数据挖掘——数据预处理
一、背景原始数据存在的几个问题:不一致;重复;含噪声;维度高。1.1 数据挖掘中使用的数据的原则尽可能赋予属性名和属性值明确的含义; 去除惟一属性; 去除重复性; 合理选择关联字段。1.2 常见的数据预处理方法数据清洗:数据清洗的目的不只是要消除错误、冗余和数据噪音,还要能将按不同的、不兼容的规则所得的各种数据集一致起来。 数据集成:将多个数据源中的数据合并,并存放到...转载 2018-07-24 21:27:14 · 7308 阅读 · 0 评论 -
机器学习——随机森林算法(RandomForest)
随机森林算法学习最近在做kaggle的时候,发现随机森林这个算法在分类问题上效果十分的好,大多数情况下效果远要比svm,log回归,knn等算法效果好。因此想琢磨琢磨这个算法的原理。要学随机森林,首先先简单介绍一下集成学习方法和决策树算法。下文仅对该两种方法做简单介绍(具体学习推荐看统计学习方法的第5章和第8章)。Bagging和Boosting的概念与区别该部分主要学习自:htt...转载 2018-07-24 10:19:23 · 2129 阅读 · 0 评论 -
机器学习算法--逻辑回归
一、逻辑回归基本概念1. 什么是逻辑回归逻辑回归就是这样的一个过程:面对一个回归或者分类问题,建立代价函数,然后通过优化方法迭代求解出最优的模型参数,然后测试验证我们这个求解的模型的好坏。Logistic回归虽然名字里带“回归”,但是它实际上是一种分类方法,主要用于两分类问题(即输出只有两种,分别代表两个类别)回归模型中,y是一个定性变量,比如y=0或1,logistic方法主要应...转载 2018-07-24 10:19:13 · 311 阅读 · 0 评论 -
Bagging和Boosting
Baggging 和Boosting都是模型融合的方法,可以将弱分类器融合之后形成一个强分类器,而且融合之后的效果会比最好的弱分类器更好。 Bagging:先介绍Bagging方法:Bagging即套袋法,其算法过程如下: 从原始样本集中抽取训练集。每轮从原始样本集中使用Bootstraping的方法抽取n个训练样本(在训练集中,有些样本可能被多次抽取到,而有些样本可能一次都...转载 2018-07-23 19:09:12 · 324 阅读 · 0 评论 -
十大机器学习算法要点
广义来说,有三种机器学习算法1、 监督式学习工作机制:这个算法由一个目标变量或结果变量(或因变量)组成。这些变量由已知的一系列预示变量(自变量)预测而来。利用这一系列变量,我们生成一个将输入值映射到期望输出值的函数。这个训练过程会一直持续,直到模型在训练数据上获得期望的精确度。监督式学习的例子有:回归、决策树、随机森林、K – 近邻算法、逻辑回归等。2、非监督式学习工作机制:在这个...转载 2018-07-22 19:38:18 · 483 阅读 · 0 评论