
机器学习
文章平均质量分 93
yang_live
这个作者很懒,什么都没留下…
展开
-
K-means文本聚类
理论介绍Kmeans算法k-means算法又称k均值,是一种无监督的机器学习方法,通过多次求均值实现聚类。即无需知道所要搜寻的目标,而是直接通过算法来得到数据的共同特征。如图所示,通过找到合适的K值和合适的中心点,来实现目标的聚类。其具体算法思想实现过程如下:1.指定簇的个数2.随机选取K个中心点3.将每条记录归到离它最近的中心点所在的簇中4.以各个簇的记录均值的中心点取代之前的中...原创 2019-12-30 23:38:05 · 4007 阅读 · 0 评论 -
Adaboost实现鸢尾花分类
1.Aadboost算法boosting思想算法boosting算法是将弱学习器提升为强学习器的算法,其思想是用几个仅比随机猜测好的傻子学习器反复进行学习,每次学习时候都更关注上次分类错误的样本,过程如下:从初始训练集训练一个基学习器:从训练集D中以无放回抽样方式随机抽取一个训练子集d1,用于弱学习机C1的训练。根据基学习器的表现对样本进行调整,使先前分类错误的样本在下一次训练时得到更多...原创 2019-12-30 21:20:45 · 6762 阅读 · 4 评论 -
SVM文本分类
一.理论方法介绍SVM(Support Vector Machine)指的是支持向量机,是常见的一种判别方法。在机器学习领域,是一个有监督的学习模型,可以用来进行分类研究。二. 实验过程1.数据处理实验语料为三个类型的文档。分别是:从百度新闻搜集的奥运会报道10篇,从延边大学研究生院官网搜集的研究生通知10篇,从微信公众号搜集的机器学习类文章30篇。主要思路:1.加载实验数据:(3个类...原创 2019-12-28 18:54:43 · 6094 阅读 · 1 评论 -
KNN分类算法
一.理论方法介绍什么是K近邻K最近邻算法是一种监督学习算法。K最近邻指的是:每个样本都可以由离它最近的K个邻居来代表。KNN和SVM算法都是一种距离测度进行分类的算法。思路是:物以类聚。如果样本周围的K个样本都属于某一类,那么样本也应该属于同一类别。K近邻中所选择的邻居都是已经正确分类的对象。因此,KNN的分类结果只取决于和他临近的几个样本的类别。K的选择结果不同会直接影响到分类结果,以...原创 2019-12-21 23:19:42 · 2900 阅读 · 0 评论