
Machine Learning
文章平均质量分 87
lxy_Alex
这个作者很懒,什么都没留下…
展开
-
算法的时间复杂度和空间复杂度
如何评价算法的性能定义:一个算法中的语句执行次数称为 语句频度 或 时间频度;约定: 检验算法的效率,主要考虑 最坏时间复杂度 和 平均时间复杂度 一般不特别说明,讨论的时间复杂度均是最坏情况下的时间复杂度时间复杂度时间复杂度的定义(1)时间频度 一个算法执行所耗费的时间,从理论上是不能算出来的,必须上机运行测试才能知道。但我们不可能也没有必要对每个算法都上机测试,只需知道哪个算法花费的...原创 2019-12-03 20:14:02 · 347 阅读 · 0 评论 -
docker部署机器学习/深度学习模型的容器化方案
文章目录什么是dockerdocker的优点docker image镜像Dockerfile 文件Dockerfile配置例子创建docker镜像docker container 容器模型部署参考和更多阅读docker部署机器学习或深度学习模型正在成为企业大规模部署的一种常规操作什么是dockerDocker 是一个开源的应用容器引擎,基于 Go 语言 并遵从Apache2.0协议开源。D...原创 2019-09-21 00:08:02 · 6638 阅读 · 0 评论 -
集成学习:让算法和算法赛跑
文章目录集成学习的基本概念构建弱分类器:决策树自助采样法:Bagging更多参考阅读:集成学习的基本概念集成学习的概念有点像竞争社会,让算法之间竞争,决出最好的结果。如果底层的算法(或者说个体学习器)是同样的只是初始化参数不同,就称为同质集成。如果底层算法的基因都不一样,来自不同的机器学习门派,就称为异质集成。个体学习器经常设置为多个不同的机器学习算法,这样做保证了个体学习期相互独立性的要求...原创 2019-09-16 22:48:43 · 341 阅读 · 0 评论 -
端到端(end-to-end)的含义
目录端到端(end-to-end)是什么端到端(end to end)的好处不同应用场景下的端到端含义不同计算机视觉CV中的端到端语音识别中的端到端端到端(end-to-end)是什么端到端指的是输入是原始数据,输出是最后的结果,原来输入端不是直接的原始数据,而是在原始数据中提取的特征经典机器学习方式是以人类的先验知识将raw数据预处理成feature,然后对feature进行分类。分类结果...原创 2019-09-07 21:01:29 · 78570 阅读 · 8 评论 -
模型评估:评估矩阵和打分
文章目录目标优先二分类问题的评价指标第一类错误和第二类错误非均匀数据集混淆矩阵、正确率、精确率、召回率和f-score对数据集的均匀性未知精度-召回曲线和ROC曲线精度-召回曲线( precision-recall curve)ROC和AUC截至目前为止, 我们都一直都是用accuracy正确率来评价分类模型的表现,用R2R^2R2. 但是,这只是评价给定数据集合上监督学习模型性能的众多指标中的...原创 2019-05-12 06:40:11 · 5867 阅读 · 0 评论 -
特征工程: 特征, 特征提取和特征选择
文章目录机器学习中的特征特征的重要性特征提取和特征选择去除方差较小的特征单变量特征选择 (Univariate feature selection)F检验与互信息其他特征选择方法重复性特征删除:用模型选择:并入pipeline机器学习中的特征在机器学习和模式识别中,特征是在观测现象中的一种独立、可测量的属性。选择信息量大的、有差别性的、独立的特征是模式识别、分类和回归问题的关键一步。最初的原...原创 2019-04-29 17:22:24 · 5440 阅读 · 0 评论 -
机器学习模型评估与改进: 交叉验证(cross validation)
以监督学习的众多算法为例,不管是分类还是回归,都有很多不同的算法模型,在不同的问题中,这些算法模型的表现是不同的。如何对模型的表行进行评估和改进呢?scikit learn网站给出了这样一个模型评估和改进的流程图:首先我们再来看看模型评估的过程,在模型训练时,我们首先可以用scikit learn的model_selection模块train_test_split函数对数据划分,分为训练集合和测...原创 2019-04-23 12:28:38 · 7917 阅读 · 0 评论 -
机器学习模型评估与改进:网格化调参(grid search)
文章目录简单网格化搜索参数过拟合的风险网格搜索与交叉验证模型调参接口: GridSearchCV函数整体流程GridSearchCV( )函数对交叉验证进一步分析不同核方法的情况网格化搜索中应用其他交叉验证策略嵌套交叉验证并行化总结附注:mglearn工具包在交叉验证部分我们知道了如何科学地评估算法模型的泛化能力,那么我们可以进一步看看,如何对模型进行调参,以达到改进模型效果的目的。首先,在调...原创 2019-04-26 01:03:52 · 6991 阅读 · 0 评论 -
ANOVA与机器学习
更多阅读:Anova中的P值F值,正态分布到卡方分布再到F分布:https://blog.youkuaiyun.com/zhangjipinggom/article/details/82315232详解方差分析: https://zhuanlan.zhihu.com/p/47175790原创 2019-02-15 17:14:32 · 2313 阅读 · 2 评论 -
scikit learn工具箱pipeline模块:串联方法
scikit learn工具箱pipeline模块:串联方法pipeline模块scikit learn工具箱的pipeline模块提供了将算法模型串联/并联的工具,多个estimator并联起来用于模型结果比较,或者将多个estamitors级联成一个estamitor,比如将特征提取、归一化、分类组织在一起,形成一个典型的机器学习问题工作流。使用Pipeline的优点在于:1.直接调用...原创 2019-02-14 17:46:48 · 1577 阅读 · 1 评论 -
机器学习之:载入数据
加载公共的开放数据通过url链接下载通常网上有很多开放数据供算法测试。通常要用到urllib从给定的链接下载。例如从UCI机器学习数据仓库中下载的数据:import numpy as np import urllib # url with dataset url = "http://archive.ics.uci.edu/ml/machine-learning-databases/pi...原创 2018-11-04 05:15:35 · 894 阅读 · 0 评论 -
机器学习之:流形与降维概述
从SNE到t-SNE再到UMAP的降维算法进化史(一)降维算法概述流形学习距离的定义KNN图与流形降维KNN图SNE算法降维算法概述降维,顾名思义就是把数据或者特征的维度降低,一般分为线性降维和非线性降维。线性降维有:PCA、LDA、MDS(Classical Multidimensional Scaling)非线性降维有: ISOmap( Isometric Mapping), LLE(...原创 2018-09-25 00:36:04 · 4713 阅读 · 0 评论 -
贝叶斯网络和概率推理(一):理性决策与朴素贝叶斯
在实际问题中,理性决策(rational decision)就意味着必须对结果出现的相关因素及其重要性,以及目标实现的可能性进行合理评估。由于未知和惰性,让我们对问题中的每个“因果关系”不能给出确定性的衡量,最多给出“因果”之间的信念度(degree of belief),也就是事情发生的概率。与此同时,不同决策间的偏好(preference)也是理性决策过程中不可避免的组成部分,而对于“效用更高”原创 2018-02-21 02:28:14 · 4795 阅读 · 1 评论