
机器学习
文章平均质量分 68
曾记否?
这个作者很懒,什么都没留下…
展开
-
K-均值聚类算法
K-均值聚类算法简介K-均值是发现给定数据集的k个簇的算法。簇个数k是用户给定的,每一个簇通过其质心(centroid) , 即簇中所有点的中心来描述。工作流程首先,随机确定k个初始点作为质心。然后将数据集中的每个点分配到一个簇中,具体来讲,为每个点找距其最近的质心,并将其分配给该质心所对应的簇。这一步完成之后,每个簇的质心更新为该簇所有点的平均值。上述过程的伪代码表示如下:创建k个点...原创 2018-09-18 21:30:30 · 1742 阅读 · 0 评论 -
使用K-均值聚类算法进行文本聚类
中文文本聚类主要有以下几个步骤:切词去除停用词构建词袋空间VSM(vector space model)TF-IDF构建词权重使用K-means算法参考博客使用scikit-learn进行KMeans文本聚类,按照以下步骤简单进行了文本聚类:使用jieba结巴分词Github对文本进行中文分词使用scikit-learn的TfidfVectorizer把原始文本转化为TF-I...原创 2018-09-18 21:40:05 · 2780 阅读 · 0 评论