
机器学习
文章平均质量分 78
abc52shenghuo
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
机器学习算法小整理之KNN
1、工作原理:存在一个样本数据集合(训练样本集)且样本集中每个数据都存在标签(样本集中每一数据与所属分类的对应关系)。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,提取样本集中特征最相似数据(最近邻)的分类标签。一般只选择样本数据集中前K个最相似的数据,选择k个最相似数据中出现次数最多的分类作为新数据的分类。 2、工作流程:(1)计算已知类别的数据原创 2017-09-13 09:33:41 · 505 阅读 · 0 评论 -
机器学习算法小整理之K-means
1、工作原理:K-means是一种基于划分的聚类算法。随机设定K个点作为初始聚类中心,算出样本中其余点与这K个点的距离,根据距离将这些点分配给最近的中心,计算平均值得到新的聚类中心。将这个过程不断重复,直到算法收敛,则聚类结束。2、存在问题:(1)需要预先依据实际经验指定k值;(2)对初始聚类中心敏感,容易导致聚类结果的不稳定;(3)随机选定初始聚类中心,易收敛于局部最优解,造原创 2017-09-05 21:31:40 · 785 阅读 · 0 评论 -
机器学习算法应用场景
本文整理了60个机器学习算法应用场景实例,含分类算法应用场景20个、回归算法应用场景20个、聚类算法应用场景10个以及关联规则应用场景10个。包含了天池、DataCastle、DataFountain中所有竞赛场景。目录1 分类算法应用场景实例1.1 O2O优惠券使用预测1.2 市民出行选乘公交预测1.3待测微生物种类判别1.4 基于转载 2017-09-15 13:25:01 · 20416 阅读 · 1 评论 -
机器学习常见问答
有监督学习和无监督学习的区别有监督学习:对具有标记的训练样本进行学习,以尽可能对训练样本集外的数据进行分类预测。(LR,SVM,BP,RF,GBDT)无监督学习:对未标记的样本进行训练学习,比发现这些样本中的结构知识。(KMeans,DL)正则化正则化是针对过拟合而提出的,以为在求解模型最优的是一般优化最小的经验风险,现在在该经验风险上加入模型复杂度这一项(正则转载 2017-09-16 11:01:40 · 4949 阅读 · 0 评论 -
机器学习算法小整理之决策树
1、工作原理:一种描述对实例进行分类的树形结构。由结点和有向边组成。内部结点表示一个特征或属性,叶节点表示一个类。从根节点到每个叶节点的路径对应了一个判定测试序列。从根节点开始,对实例的某一特征进行测试,根据测试结果,将实例分配到其子节点,这时,每一个子节点对应着该特征的一个取值,如此递归的对实例进行测试并分配,直至达到叶节点,最后将实例分到叶节点的类中。2、算法流程:(决策树的构建)原创 2017-09-15 08:42:58 · 766 阅读 · 0 评论 -
机器学习算法小整理之随机森林
1、工作原理:以决策树为基学习器构建Bagging集成的基础上,进一步在决策树的训练过程中引入了随机属性选择(对基决策树的每个节点,先从该节点的属性集合中随机选择一个包含k个属性的子集,然后再从这个子集中选择一个最优属性进行划分)。Bagging:基于自助采样法,从原始数据集中采样出S个含m个训练样本的采样集即新数据集,将某个学习算法分别作用于每个数据集得到S个分类器,选择分类器投票结果中原创 2017-09-16 09:31:50 · 1424 阅读 · 1 评论