
机器学习
文章平均质量分 96
WEILING123
这个作者很懒,什么都没留下…
展开
-
浅谈特征选择的原理和Python实现
0.引言在现实世界中,我们总是倾向于收集尽可能多的特征来对一个事物进行描述,以期能够全面准确的刻画事物。然而,我们了解事物的目的是时刻变化着的,所以并非每一次对事物的刻画都需要所有特征。例如在机器学习领域众所周知的西瓜,描述西瓜的特征有很多,包括:大小、色泽、敲声、纹理、触感、根蒂等。了解西瓜的目的(学习任务)也各不相同:好吃、好闻、好看等。显然,若学习任务是判断一个西瓜是否好看,则只需要大小、色泽、纹理等特征即可,这些特征即是“相关特征”。若需求为判断西瓜是否好吃,只需要根蒂、敲声即可,其他的特征则为“原创 2021-04-27 18:46:43 · 876 阅读 · 0 评论 -
浅谈流形学习之Isomap算法
1.流形学习基本概念“maniflod”在英文中作为动词的原意为复写,使多样化。中文译法出自文天祥的“天地有正气,杂然赋流形”,虽然初识不太好理解,但讲究一个文采飞扬。此外,“mani-”表示多,“fold”有折叠的意思,可简单理解为由多个面叠加而成。“manifold”在日文中就翻译为多样体,较为符合原意。流形学习(manifold learning)是一类借鉴了拓扑流形概念的降维方法。按照数学中的定义,流形是指在局部与欧式空间同胚的空间,即它在局部具有欧式空间的性质,能够适用欧式距离进行距离计算。原创 2020-09-28 17:21:00 · 4763 阅读 · 0 评论 -
非线性降维-核主成分分析KPCA
1.引言传统线性降维方法(PCA、LDA、MDS等)通过对原有特征线性组合来实现降维,其本质是将数据投影到一个地位的线性子空间,其优点是方法简单计算容易。但如果原始数据无法表示为特征的线性组合则很难使用线性降维方法。例如Helix曲线。此时需要引入非线性的降维方法。2.核主成分分析(KPCA)原理简述与基于核函数的支持向量机类似,通过将非线性可分问题映射到更高维的特征空间,使其在更高维空间上线性可分。为了将样本x∈Rkx\in R^kx∈Rk映射到维度更高的k维空间,定义非线性映射函数ϕ:Rd→R原创 2020-08-10 21:39:02 · 5348 阅读 · 2 评论 -
线性降维:PCA、LDA、MDS
降维1. KNN1. KNN为什么要在介绍降维之前学习KNN呢?因为通过对KNN的了解,可知,以KNN为代表的一类算法,由于本身为非参数化模型,无法使用例如在损失函数中加入正则表达式的之类的方法对某些维度信息进行约束,极易造成过拟合。KNN是惰性学习算法的典型例子。惰性是指它仅仅对训练数据集有记忆功能,而不会从训练集中通过学习得到一个判别函数。惰性学习算法一般思想简单,且没有训练过程。相对应的则是急切学习,...原创 2020-07-15 09:41:43 · 2911 阅读 · 0 评论 -
我所知道的聚类
0.什么是聚类机器学习按照训练数据是否有标签(即是否已知预测结果)可分为有监督学习和无监督学习,例如我们熟知的集成学习、深度学习、贝叶斯分类器等都是有监督学习。由于人类的经验(数据标签)并非总是正确,所以无监督学习通过技术手段,在不做人为干预的情况下,让机器自己进行学习,可发现更多隐藏的规律,从而可能学习到数据更本质、更内涵的知识。此外,现实生活中,数据没有标签是常态,而对数据标注工作注定耗时费...原创 2020-04-26 16:11:18 · 978 阅读 · 0 评论 -
问题:get_params() missing 1 required positional argument: 'self' 之解决
问题描述在对进行网格搜索XGboost参数的python程序调试中突然爆出Error:TypeError: get_params() missing 1 required positional argument: 'self'代码为:from sklearn.model_selection import GridSearchCVfrom sklearn.pipeline import P...原创 2020-04-04 15:58:54 · 1815 阅读 · 0 评论 -
集成学习初探
1.引言集成学习,顾名思义,是将多个不同的基分类器组合为一个元分类器,新组建的元分类器较之于基分类器具有更好的泛化性能和鲁棒性。虽然集成学习并不是全新的机器学习算法,只是对现有算法的优化策略,却能够有效的提高弱学习器(基分类器)的性能,在深度学习出现之前,集成学习在很多场合都能取得最佳的决策效果。最成功的的集成学习方法是已经可以认为是一种单独算法的随机森林(RF),其在很多竞赛中脱颖而出。一般...原创 2020-03-27 17:14:32 · 804 阅读 · 0 评论 -
EM算法:三硬币模型
EM算法是一种迭代算法,用于含有隐含变量的概率模型参数的极大似然 估计或最大后验概率估计。EM算法每次迭代有两步组成:E步,求期望(Ecpectation);M步,求极大值(Maximization)。所以该算法也称为期望极大算法。...原创 2020-03-18 11:59:52 · 1241 阅读 · 0 评论 -
朴素贝叶斯分类器
朴素贝叶斯引子核心算法例子合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入朴素,即naive,简单、天真之意。贝叶斯分类是若干以...原创 2020-01-15 21:49:07 · 232 阅读 · 0 评论 -
极大似然估计初探
极大似然估计1.贝叶斯决策新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入1.贝叶斯决策由于极大似然估计与贝...原创 2020-01-09 17:22:27 · 359 阅读 · 0 评论