
机器学习
文章平均质量分 82
仅供学习使用
Jackson的生态模型
大家好,我是一名优快云博主,目前正攻读博士研究生学位,专注于全球变化生态学的研究。自加入优快云以来,我始终以满腔热情和不懈的努力,通过撰写博文来分享我的学术探索和实践经验。我的博文内容覆盖了多个领域,包括地理信息系统(GIS)、基于GIS的Python开发、Google Earth Engine的使用、R语言编程以及机器学习等。
我衷心感谢每一位关注、点赞、评论和收藏我的博文的朋友们。正是你们的支持与鼓励,让我在学术道路上更加坚定和自信。展望未来,我计划进一步深化我所热爱的研究领域,不断学习新知,提升自我,并致力于创作更多高质量的内容。同时,我也期待与大家进行更深入的讨论和交流。
展开
-
深度学习 二:COVID 19 Cases Prediction (Regression)
运行深度神经网络,解决回归问题:根据美国某州过去3天的调查结果,预测第3天新增检测阳性病例的百分比原创 2023-10-02 00:20:15 · 1436 阅读 · 0 评论 -
深度学习 一:Deep Learning基本概念及线性、非线性回归对比分析(sigmoid v.s. ReLU)
深度学习是一类模式分析方法的统称,就具体研究内容而言,主要涉及三类方法:基于卷积运算的神经网络系统,即卷积神经网络(CNN);基于多层神经元的自编码神经网络,包括自编码(Auto encoder)以及近年来受到广泛关注的稀疏编码两类(Sparse Coding)。以多层自编码神经网络的方式进行预训练,进而结合鉴别信息进一步优化神经网络权值的深度置信网络(DBN)。原创 2023-09-30 11:21:33 · 950 阅读 · 0 评论 -
R语言:使用randomForestExplainer理解随机森林
这个星期花了大量的时间在做关于随机森林方面的学习,自己也试着编写相关的代码,来实现需求。前几天和老师交流后,觉得应该做一个多个因素的交互作用,比如三个或者更多,但是进过多种尝试,试了很多函数、R包、以及用python来编写,但是一直都没能成功,花了大概几天的时间,确实感觉按照目前的能力来说,还无法实现。于是,尝试着用双因子进行交互,这方面randomForest还是很快就能实现的,所以现在把自己学到的一个新的包记录一下,如果您了解这方面的内容,或者对随机森林的交互作用有自己的见解,咱们可以进行交流。原创 2023-03-14 16:30:16 · 2757 阅读 · 2 评论 -
机器学习笔记 二十:在Iris数据集上实现决策树的可视化
决策树是一种用于机器学习的监督算法。它使用一个二进制树形图(每个节点有两个孩子)为每个数据样本分配一个目标值,目标值呈现在树叶中。为了到达树叶,样本通过节点传播,从根节点开始。在每个节点中,决定它应该去哪个子孙节点。决定是根据所选样本的特征做出的。决策树学习是一个根据所选指标在每个内部树节点中寻找最佳规则的过程。这些都是老生常谈的问题了,希望大家简单了解一下即可。原创 2022-12-21 19:40:37 · 1301 阅读 · 0 评论 -
机器学习笔记 十九:由浅入深的随机森林模型之分类
基本上所有的机器学习领域都可以看到集成学习的身影,在现实中集成学习也有相当大的作用,它可以用来做市场营销模拟的建模,统计客户来源,保留和流失,也可用来预测疾病的风险和病患者的易感性。但是相应的,任何模型都有决策边界,n_estimators达到一定的程度之后,随机森林的精确性往往不在上升或开始波动,并且,n_estimators越大,需要的计算量和内存也越大,训练的时间也会越来越长。它的所有基评估器都是决策树,分类树组成的森林就叫做随机森林分类器,回归树所集成的森林就叫做随机森林回归器。原创 2022-11-27 18:53:34 · 2415 阅读 · 0 评论 -
机器学习笔记 十八:基于3种方法的随机森林模型分析房屋参数重要性
特征选择(feature selsection)是机器学习最重要的步骤,如果说算法决定了模型的下限,那么特征就决定模型的上限;另外,需要注意不是说用尽可能多的特征得出的模型表现越好,有些时候数个特征就能得到理想的结果。Boruta采用随机森林的办法抽取特征、打乱特征顺序计算特征的重要性原创 2022-11-12 21:44:33 · 1644 阅读 · 2 评论 -
机器学习笔记 十七:基于Gini Importance、Permutation Importance、Boruta的随机森林模型重要性评估的比较
gini重要性,每次在变量m上进行节点分割时,两个后代节点的基尼杂质标准小于父节点。 对于森林中所有树木的每个单独变量,加上基尼系数会产生快速变量的重要性,这通常与排列重要性度量非常一致。对比三种方法:gini、Permutation、boruta,得出对重要性筛选的最好方法。Permuation Importance特征选择在精确度、召回率和f1分数方面提供了最佳模型。原创 2022-11-12 17:47:19 · 4817 阅读 · 1 评论 -
机器学习笔记 十六:基于Boruta算法的随机森林(RF)特征重要性评估
随机森林由许多决策树组成,决策树中的每个节点都是单个特征的一个条件,旨在将数据集分成两个,以便相似的响应值最终出现在相同的集合中。选择(局部)最优条件所依据的度量称为杂质:1.对于分类树,它通常是基尼杂质或信息增益/熵;对于每一列,重复排列10次,以便对平均精度下降(MDA)有一个更好的估计,并计算该估计的标准差。原创 2022-11-10 19:04:34 · 7153 阅读 · 1 评论 -
机器学习笔记 十五:随机森林(Random Forest)评估机器学习模型的特征重要性
在随机森林中创建决策树时,通过测量特征在减少不确定性(分类器)或方差(回归器)方面的有效性来计算特征的平均-减少-不纯重要性。问题是这种机制虽然快速,但并不总是能准确反映出重要性。互换重要性是一个更好的方法,它衡量一个特征的重要性为:将验证集或袋外(OOB)样本导入随机森林,并记录基线准确性(分类器)或R2得分(调节器)。对单一预测特征的列值进行修正,然后将所有测试样本重新通过随机森林,重新计算准确率或者R2。该特征的重要性是基线和因排列组合而造成的总体准确率或R2下降之间的差异。原创 2022-10-31 19:33:16 · 6036 阅读 · 3 评论 -
机器学习笔记 十四:k-近邻算法(kNN)的实现
最近邻 (k-Nearest Neighbors, KNN) 算法是一种分类算法, 1968年由 Cover和 Hart 提出, 应用场景有字符识别、 文本分类、 图像识别等领域。该算法的思想是: 一个样本与数据集中的k个样本最相似, 如果这k个样本中的大多数属于某一个类别, 则该样本也属于这个类别。数据集来源于相亲分类数据,帮助需要的人进行配对。...原创 2022-07-31 19:00:22 · 1175 阅读 · 0 评论 -
机器学习笔记 十三:最强大的学习算法之支持向量机(三)
通过Python实现支持向量机的训练,包括数据加载绘制、训练SVM分类器、线性SVM、高斯SVM等内容,最后再对垃圾邮件进行训练和分类,获取分类的精读,也可以进行调参获得更好的效果。我先后通过matlab和python两种语言实现SVM,明显感受到python语言的简洁性,只需要100行左右的代码,就能实现SVM的构建和运行。......原创 2022-07-07 17:47:30 · 651 阅读 · 0 评论 -
机器学习笔记 十二:最强大的学习算法之支持向量机(二)
二维分类问题是一个经典的机器学习问题,其中的关键在于找到合适的分类平面(分类器的决策边界,比如y=w^T x+b),而支持向量机提出最大化分类间距的思想。本文主要是运用SVM进行垃圾邮件的分类。............原创 2022-07-07 12:04:35 · 717 阅读 · 0 评论 -
机器学习笔记 十一:最强大的学习算法之支持向量机(一)
支持向量机(support vector machines,SVM)是一种二分类模型,它将实例的特征向量映射为空间中的一些点,SVM 的目的就是想要画出一条线,以 “最好地” 区分这两类点,以至如果以后有了新的点,这条线也能做出很好的分类。SVM 适合中小型数据样本、非线性、高维的分类问题。.........原创 2022-07-06 16:35:08 · 781 阅读 · 0 评论 -
机器学习笔记 十:基于神经网络算法的数据预测
本次的数据集为手写体数据原创 2022-07-04 18:39:37 · 1664 阅读 · 0 评论 -
机器学习笔记 九:预测模型优化(防止欠拟合和过拟合问题发生)
构造机器学习模型之前,我们需要对模型有一个大致的想法,先从简单的做起(欠拟合),再进行正则化(防止过拟合),这就需要寻找合适的lambda值,所以还需要构建一个学习函数,通过学习曲线找出合适的lambda,此处为偏差和方差平衡的地方。......原创 2022-06-28 17:29:46 · 2202 阅读 · 2 评论 -
机器学习笔记 八:Matlab实现神经网络的手写数字识别
1. sel数组(1*100):2. 数字可视化展示:实现功能: 在格网中显示二维数组,并自动为每个格网中的数字生成一个宽度(若有宽度,就不生成)代码流程图:3. 基于前向传播算法计算代价非正则化的结果:正则化都结果:part1:原理:part2:后向传播算法实现(不考虑正则项)part3:考虑正则项首先,计算Theta1_reg、Theta2_grad:注意:从第二列开始计算正则项最后,计算正则项:5. 梯度下降函数5.2 sigmoidGradient原创 2022-06-17 21:12:38 · 1386 阅读 · 0 评论 -
机器学习笔记 七:强大的神经网络表述
神经网络的诞生是人们想尝试设计出模仿大脑的算法(人脑是最好的学习机器)。假设:大脑做所有事情和不同的方法,不需要用上千个不同的程序去实现。相反,大脑处理的方法,只需要一个单一的学习算法就可以了。因为人体有同一块脑组织可以处理光、声或触觉信号,那么也许存在一种学习算法(而不是成千上万种算法),可以同时处理视觉、听觉和触觉。神经网络模型建立在很多神经元之上,每一个神经元又是一个个学习模型。这些神经元(也叫激活单元,activation unit)采纳一些特征作为输出,并且根据本身的模型提供一个输出。如一个原创 2022-06-14 23:14:15 · 439 阅读 · 0 评论 -
机器学习笔记 六:逻辑回归中的多分类问题之数字识别
使用逻辑回归来识别手写数字(0到9)1. sigmoid函数:2. 逻辑回归的代价函数:3. 梯度下降算法:4. 正则化的逻辑回归模型的代价函数:5. 数字识别原理(向量化标签,1表示真,0表示假):.........原创 2022-06-11 23:54:14 · 437 阅读 · 0 评论 -
机器学习笔记 五:逻辑回归(Logistics Regression)及两个分类案例
目录1. 前言2. 实现2.1 数据可视化过程2.2 逻辑回归实现3. Sigmoid函数4. 代价函数(costFunction)1. 前言逻辑回归属于分类问题(classification),这里主要是考虑有sigmoid函数(也叫做Logistic函数):这里我主要是介绍一些逻辑回归函数的实现过程,首先,我的数据来源于吴恩达机器学习数据集(学生录取成绩数据,含标签label(0,1))。设想你是大学相关部分的管理者,想通过申请学生两次测试的评分,来决定他们是否被录取。现在你拥有之前申请学生的可原创 2022-05-19 22:16:51 · 2219 阅读 · 1 评论 -
机器学习数据分析软件:Octave
最近学习了Octave数学软件,这个软件类似于MATLAB,但是操作要比MATLAB简单很多,上手快,对数据分析有很大的帮助,所以这里就简单的把部分练习的代码放在这里,如果你想实现一下,可以按照代码内容来,或者自己编写GNU Octave, version 7.1.0Copyright (C) 1993-2022 The Octave Project Developers.This is free software; see the source code for copying conditions原创 2022-05-16 15:05:34 · 853 阅读 · 0 评论 -
机器学习笔记 四 :线性回归(Linear regression)及房屋数据集的回归
最近在学习吴恩达老师的机器学习课程,所以在这里记录一下,主要是完成他的课后作业。思路: 1.首先,我们自己编写线性回归函数,看看整个计算的流程; 2.使用sklearn进行线性回归计算; 3.对比以上两种方法的优缺点。1.单变量线性回归:import numpy as npimport pandas as pdimport matplotlib.pyplot as plt# 读取文件地址,r将\转义为\\path = r'C:\Users\Administrator\Deskt原创 2022-05-11 17:49:35 · 1463 阅读 · 0 评论 -
机器学习笔记 三:基于鸢尾花(iris)数据集的逻辑回归分类
Step1:库函数导入# 基础函数库import numpy as np import pandas as pd# 绘图函数库import matplotlib.pyplot as pltimport seaborn as sns鸢尾花数据集(iris)一共包含5个变量,其中4个特征变量,1个目标分类变量。共有150个样本,目标变量为花的类别,其都属于鸢尾属下的三个亚属,分别是山鸢尾 (Iris-setosa),变色鸢尾(Iris-versicolor) 和 维吉尼亚鸢尾(Iris-v原创 2022-04-22 17:27:28 · 9767 阅读 · 0 评论 -
机器学习笔记 二:基于逻辑回归的分类预测
1 逻辑回归的介绍和应用1.1 逻辑回归的介绍逻辑回归(Logistic regression,简称LR)虽然其中带有"回归"两个字,但逻辑回归其实是一个分类模型,并且广泛应用于各个领域之中。虽然现在深度学习相对于这些传统方法更为火热,但实则这些传统方法由于其独特的优势依然广泛应用于各个领域中。而对于逻辑回归而且,最为突出的两点就是其模型简单和模型的可解释性强。逻辑回归模型的优劣势:优点: 实现简单,易于理解和实现;计算代价不高,速度很快,存储资源低;缺点: 容易欠拟合,分类精度可能不高1原创 2022-04-22 16:40:53 · 484 阅读 · 0 评论 -
机器学习笔记 一:机器学习思路
一、派别频率派:统计机器学习贝叶斯派:概率图模型二、学习书籍李航《统计学习方法》:周志华《机器学习》:《PRML》: Pattern Recognition and Machine Learning,该书出版于2006年,是贝叶斯机器学习领域的经典之作。作者为Christopher M. Bishop,现为剑桥微软研究院实验室主任。《MLAPP》: 全称 Machine Learning:A Probabilistic Prospective,是 2012 年出的一本讲机器学习的一本书。原创 2022-04-15 12:34:43 · 1605 阅读 · 0 评论