
机器学习
文章平均质量分 84
帆_5021
这个作者很懒,什么都没留下…
展开
-
sklearn(5)—— 降维算法
1 概述1.1 从什么叫“维度”说开来我们不断提到一些语言,比如说:随机森林是通过随机抽取特征来建树,以避免高维计算;再比如说,sklearn中导入特征矩阵,必须是至少二维;在特征工程中,还特地提到了,特征选择的目的是通过降维来降低算法的计算成本……这些语言都很正常地被我用来使用,直到有一天,一个小伙伴问了我,”维度“到底是什么?对于数组和Series来说,维度就是功能shape返回的结果,shape中返回了几个数字,就是几维。索引以外的数据,不分行列的叫一维(此时shape返回唯一的维度上的数据个数原创 2020-07-17 17:29:45 · 2546 阅读 · 0 评论 -
sklearn(4)—— 数据预处理与特征工程
1 概述1.1 数据预处理与特征工程想象一下未来美好的一天,成为一个精通各种算法和调参调库的数据挖掘工程师了。某一天你从你的同事,一位药物研究人员那里,得到了一份病人临床表现的数据。药物研究人员用前四列数据预测一下最后一数据,还说他要出差几天,可能没办法和你一起研究数据了,希望出差回来以后,可以有个初步分析结果。于是你就看了看数据,看着很普通,预测连续型变量,好说,导随机森林回归器调出来,调参调呀调,MSE很小,跑了个还不错的结果。几天后,你同事出差回来了,准备要一起开会了,会上你碰见了和你同事在同一原创 2020-06-18 10:26:59 · 2133 阅读 · 0 评论 -
sklearn(3)—— 随机森林
1 概述1.1 集成算法概述集成学习(ensemble learning)是时下非常流行的机器学习算法,它本身不是一个单独的机器学习算法,而是通过在数据上构建多个模型,集成所有模型的建模结果。基本上所有的机器学习领域都可以看到集成学习的身影,在现实中集成学习也有相当大的作用,它可以用来做市场营销模拟的建模,统计客户来源,保留和流失,也可用来预测疾病的风险和病患者的易感性。在现在的各种算法竞赛中,随机森林,梯度提升树(GBDT),Xgboost等集成算法的身影也随处可见,可见其效果之好,应用之广。原创 2020-05-25 18:15:28 · 1518 阅读 · 0 评论 -
sklearn(2)—— 决策树
1 概述1.1 决策树是如何工作的决策树(Decision Tree)是一种非参数的有监督学习方法,它能够从一系列有特征和标签的数据中总结出决策规则,并用树状图的结构来呈现这些规则,以解决分类和回归问题。决策树算法容易理解,适用各种数据,在解决各种问题时都有良好表现,尤其是以树模型为核心的各种集成算法,在各个行业和领域都有广泛的应用。我们来简单了解一下决策树是如何工作的。决策树算法的本质是一种图结构,我们只需要问一系列问题就可以对数据进行分类了。比如说,来看看下面这组数据集,这是一系列已知物种以及所属原创 2020-05-15 09:36:10 · 1144 阅读 · 0 评论 -
sklearn(1) —— 入门
sklearn入门scikit-learn,又写作sklearn,是一个开源的基于python语言的机器学习工具包。它通过NumPy, SciPy和Matplotlib等python数值计算的库实现高效的算法应用,并且涵盖了几乎所有主流机器学习算法。在工程应用中,用python手写代码来从头实现一个算法的可能性非常低,这样不仅耗时耗力,还不一定能够写出构架清晰,稳定性强的模型。更多情况下,是分析采集到的数据,根据数据特征选择适合的算法,在工具包中调用算法,调整算法的参数,获取需要的信息,从而实现算法效率原创 2020-05-09 17:59:01 · 254 阅读 · 0 评论 -
机器学习——线性回归和逻辑回归
线性回归和逻辑回归的区别1)线性回归要求变量服从正态分布,logistic回归对变量分布没有要求。2)线性回归要求因变量是连续性数值变量,而logistic回归要求因变量是分类型变量。3)线性回归要求自变量和因变量呈线性关系,而logistic回归不要求自变量和因变量呈线性关系4)logistic回归是分析因变量取某个值的概率与自变量的关系,而线性回归是直接分析因变量与自变量的关系5)线...原创 2020-04-01 17:57:51 · 271 阅读 · 0 评论 -
机器学习——基础知识
机器学习——基础知识机器学习 概述机器学习(Machine Learning,ML) 是使用计算机来彰显数据背后的真实含义,它为了把无序的数据转换成有用的信息。是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。 它是人工智能的核心,是使计算机具有智能...翻译 2018-10-22 17:04:36 · 975 阅读 · 0 评论 -
机器学习——K-means算法(聚类算法)
聚类在说K-means聚类算法之前必须要先理解聚类和分类的区别。分类其实是从特定的数据中挖掘模式,作出判断的过程。比如Gmail邮箱里有垃圾邮件分类器,一开始的时候可能什么都不过滤,在日常使用过程中,我人工对于每一封邮件点选“垃圾”或“不是垃圾”,过一段时间,Gmail就体现出一定的智能,能够自动过滤掉一些垃圾邮件了。这是因为在点选的过程中,其实是给每一条邮件打了一个“标签”,这个标签只有两个...原创 2018-10-30 14:41:24 · 1161 阅读 · 0 评论 -
机器学习——决策树算法
创建决策树算法案例原创 2018-12-04 15:52:31 · 685 阅读 · 0 评论