机器学习
tlewa
不疯魔,不成活
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
TF-IDF(词频-逆文本频率)
TF-IDF 简介 TF-IDF(Term Frequency-Inverse Document Frequency, 词频-逆文本频率)。是一种用于信息检索与数据挖掘的常用加权技术,可以评估一个词在一个文件集或者一个语料库中对某个文件的重要程度。一个词语在一篇文章中出现的次数越多,同时在所有文章中出现的次数越少,越能代表该文章的中心意思。 词频 指的是一个给定的词语在该文件中出现的次数。这个数字...原创 2019-04-17 23:55:43 · 3289 阅读 · 0 评论 -
机器学习的分类
无监督学习 对不带任何标签的数据特征进行建模,不给定目标值)数据的一类学习算法 聚类:将数据集合分成由类似的对象组成的多个类的过程,类与类之间差异很大,类内部样本相似度很高 密度分析:将寻找描述数据统计值的过程 常用算法: K-均值 DBSCAN 最大期望算法 Parzen窗设计 监督学习 对数据的若干特征与若干标签之间的关联性进行建模,包括 分类:将实例数据划分到合适的分...原创 2019-04-19 16:45:03 · 188 阅读 · 0 评论 -
K-means算法
K-means算法 特点 优点:容易实现 缺点:可能收敛到局部最小值,在大规模数据集上收敛较慢 适用数据类型:数值型数据 步骤 适当给出聚类簇数k 根据k,随机选择k个簇质心 对任意一个样本,求其到各个簇质心的距离,将其归到距离最近的簇质心 用均值等方法更新每个簇的质心 重复3、4,直到各个簇质心恒定不变,则聚类完成 选择适当的簇数 肘部法则–Elbow Method 畸变程度:每个簇质心与...原创 2019-04-19 16:53:16 · 384 阅读 · 0 评论
分享