
数据挖掘
wong_faye
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
[数据挖掘笔记] KMeans豆瓣文本聚类
1.KMeans文本聚类算法 1.1 文本聚类概述 在NLP领域,一个很重要的应用方向是文本聚类,文本聚类有很多种算法,例如KMeans、DBScan、BIRCH、CURE等。这里我们着重介绍最经典的KMeans算法。KMeans算法是一种无监督学习的算法,它解决的是聚类问题。将一些数据通过无监督的方式,自动化聚集出一些簇。文本聚类存在大量的使用场景,比如数据挖掘、信息检索、主题检测、文本概况等。 文本聚类对文档集合进行划分,使得同类别的文档聚合到一起,不同类别的文档相似度比较小。文本聚类不需要预先对文档进原创 2020-11-06 14:55:44 · 5783 阅读 · 9 评论 -
[数据挖掘笔记] 聚类算法KMeans
1.概述 1.1 无监督学习与聚类算法 聚类算法又叫做“无监督分类”,其目的是将数据划分成有意义或有用的组。这种划分可以基于我们的业务需求或建模需求来完成,也可以单纯地帮助我们探索数据的自然结构和分布。比如在商业中,如果我们手头有大量的当前和潜在客户的信息,我们可以使用聚类将客户划分为若干组,以便进一步分析和开展营销活动,如RFM模型。聚类可以用于降维和矢量量化,可以将高维特征压缩到一列当中,常常用于图像、声音、视频等非结构化数据,可以大幅度压缩数据量。 1.2 sklearn中的聚类算法 聚类算法在sk原创 2020-11-05 11:16:21 · 1905 阅读 · 0 评论 -
[数据挖掘笔记] 数据挖掘过程
1.数据挖掘过程原创 2020-07-20 11:58:17 · 168 阅读 · 0 评论 -
[数据挖掘笔记02] 决策树ID3算法
1.原理 【问题】故事发生在100年前,一个还没有手机的时代,小明的女朋友小红想去找小明玩,但不知道小明在不在家,因为小明可能出去打球了。现在小红想知道小明的去向,她手里有过去14次去找小明玩时的数据,请帮她判断一下小明到底是在家还是去打球了。[现在的情况是[‘rainy’,‘hot’,‘high’,‘false’]] 这里引入两个概念: 熵:表示随机变量不确定性的度量,物体内部的混乱程度。比...原创 2020-04-28 23:53:19 · 1931 阅读 · 0 评论 -
[数据挖掘笔记01] 关联规则Apriori算法
1.原理 关联规则用来找出事物之间的关联性,比如“如果小明买了面包,那么他也会买果汁”,下面我们通过一个实例来理解关联规则。 有这样一个交易数据集D,最小支持度为0.3,最小置信度为0.7,要求我们基于这个数据集求出商品间的关联规则。 这里需要引入两个概念: 支持度:Support(X) = X在数据集中出现的次数数据集的条数\frac{X在数据集中出现的次数}{数据集的条数}数据集的条数X...原创 2020-04-28 16:01:35 · 1384 阅读 · 0 评论