
机器学习
机器学习 理论+实践
大桃子技术
这个作者很懒,什么都没留下…
展开
-
基于卷积神经网络的高光谱分类(1D、2D、3D-CNN)
基于卷积神经网络的高光谱分类(1D、2D、3D-CNN) 含代码原创 2023-01-01 18:33:43 · 11696 阅读 · 21 评论 -
Scrapy bug:Spider must return request, item, or None, got ‘list‘ in
scrapy原创 2022-11-28 12:18:50 · 1040 阅读 · 0 评论 -
Alzheimer‘s Dataset
https://download.youkuaiyun.com/download/qq_45047246/85151366原创 2022-11-23 08:45:31 · 907 阅读 · 0 评论 -
【python】训练loos值为nan,是由于训练数据中有空值
【python】训练loos值为nan,是由于训练数据中有空值原创 2022-08-10 10:38:30 · 680 阅读 · 0 评论 -
【Python项目实战】基于时间卷积网络(Temporal Convolution Network ,TCN)的发动机剩余寿命预测
航空发动机结构复杂,状态变量多且相互之间存在着严重非线性特征,传统的基于物理失效模型的方法难以精确地预测发动机的剩余寿命(RUL)。针对此问题,采用时间卷积网络(Temporal Convolution Network ,TCN)作为一种最新出现的序列神经网络,被证明在序列数据预测上有良好的效果。采用TCN实现对发动机剩余寿命进行预测,预测过程通过建立退化模型,给每个训练样本添加RUL标签;将特征输入构建的卷积神经网络得到剩余寿命的预测值。为了验证方法的有效性,在NASA提供的涡轮风扇发动机仿真数据集(C-原创 2022-07-12 17:09:51 · 3385 阅读 · 3 评论 -
AI识虫数据集下载链接
目标检测是计算机视觉中的一个重要的应用方向,与之相关的应用也越来越多。百度飞桨与北京林业大学合作开发的AI识虫项目,是将AI与农业相结合的典型案例。本次比赛将使用林业病虫数据集,使用目标检测算法对图片中的虫子类别和位置进行预测。...原创 2022-02-27 12:18:11 · 2269 阅读 · 1 评论 -
使用python开发pyqt程序的环境搭建
使用python开发pyqt程序的环境搭建操作系统windows 64 位python3.5.3pyqt5.9Eric6.17环境链接:https://pan.baidu.com/s/1AXUfLr5b4_6E9HBQlYzyTQ提取码:ll8l安装视频链接:https://pan.baidu.com/s/1K4kmuvRCGqELMqzlIxVs8Q提取码:226b# -*- coding: utf-8 -*-import sys fro原创 2021-02-19 11:01:13 · 203 阅读 · 0 评论 -
jupyter打不开
参考链接pip install jsonschema==3.0.2原创 2021-01-13 12:12:47 · 560 阅读 · 0 评论 -
6.2 关联规则可视化
## 加载包import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport scipy as sp## 图像在jupyter notebook中显示%matplotlib inline## 显示的图片格式(mac中的高清格式),还可以设置为"bmp"等格式%config InlineBackend.figure_format = "retina"## 输出图显示中文from matplotlib.fon原创 2020-11-29 20:51:17 · 5032 阅读 · 4 评论 -
6.1 使用关联规则找到调查问卷中的规则
关联分析使用关联分析,分析一份调查问卷,对其中的十几个单选题尽进行关联分析,发现其中的规则## 加载包import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport scipy as sp## 图像在jupyter notebook中显示%matplotlib inline## 显示的图片格式(mac中的高清格式),还可以设置为"bmp"等格式%config InlineBackend.figure_f原创 2020-11-29 20:53:00 · 1395 阅读 · 0 评论 -
5.4 logistic回归分析
logistic回归分析logistic回归分析主要用来做分类(尤其是二分类问题),下面以客户是否会及时还信用卡欠款的数据进行预测https://archive.ics.uci.edu/ml/datasets/default+of+credit+card+clients信用卡是否违约数据集from sklearn.linear_model import LogisticRegression## 读取数据集credit = pd.read_excel("D:\Desktop\python在机器学原创 2020-11-29 20:51:32 · 597 阅读 · 0 评论 -
5.5 时间序列预测
ARIMA模型时间序列模型 ARIMAARIMA模型运用的流程1:根据时间序列的散点图、自相关函数和偏自相关函数图识别其平稳性。2:对非平稳的时间序列数据进行平稳化处理。直到处理后的自相关函数和偏自相关函数的数值非显著非零。3:根据所识别出来的特征建立相应的时间序列模型。平稳化处理后,若偏自相关函数是截尾的,而自相关函数是拖尾的,则建立AR模型;若偏自相关函数是拖尾的,而自相关函数是截尾的,则建立MA模型;若偏自相关函数和自相关函数均是拖尾的,则序列适合ARMA模型。4:参数估计,检验是否具有统原创 2020-11-29 20:51:45 · 1504 阅读 · 2 评论 -
5.3 Ridge 回归分析
岭回归(英文名:ridge regression, Tikhonov regularization)是一种专用于共线性数据分析的有偏估计回归方法,实质上是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法,对病态数据的拟合要强于最小二乘法。参数α控制要对模型进行正则化的程度。如果α=0,那么岭回归就是线性回归。如果α非常大,那么所有权重都非常接近于零,结果是一条穿过数据平均值的平线。## 定义回归函数from sklearn原创 2020-11-29 20:52:48 · 3278 阅读 · 0 评论 -
5.2 Lasso回归分析
最小绝对收缩和选择算子回归(通常简单地称为Lasso回归),实际上是在多元线性回归上增加了一个惩罚范数l1,范数起到了增强模型稳定性、筛选模型特征的效果Lasso回归成本函数使用糖尿病数据集# Lasso回归分析## 加载包import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as sns## 图像在jupyter notebook中显示%matplotlib inline原创 2020-11-29 20:52:30 · 12207 阅读 · 2 评论 -
5.1 多元线性回归分析
在本章中,我们将从线性回归模型开始,它是最简单的模型之一。数据集来自于UIC数据集中的能效数据集,该数据及用来分析建筑的供热负荷能效和制冷负荷能效,其中自变量有8个,因变量有两个,实例主要分析8个自变量和供热负荷Y1之间的回归模型,使用ststsmodels库分析建筑物的供热负荷和制冷负荷要求(即能源效率)与建筑参数的关系。能效数据集http://archive.ics.uci.edu/ml/datasets/Energy+efficiencyX1相对紧凑X2表面积X3墙面积X4屋顶区域X5原创 2020-11-29 20:48:52 · 2428 阅读 · 1 评论 -
4.4 聚类分析评估
聚类评估可以用来估计在数据集上进行聚类的可行性和被聚类方法产生结果的质量,聚类评估的工作主要是:估计聚类趋势,只有在数据中存在非随机结构,聚类结果才会有意义。所以要分析是否具有聚类趋势确定数据集的簇测定聚类质量,最常用的方法是轮廓函数。在度量聚类中簇的你和邢,可以计算所有对象轮廓系数的平均值,轮廓系数越接近于1,聚类效果越好聚类当你在山上徒步旅行时,你偶然发现了一种你从未见过的植物。你环顾四周,发现了更多。它们不完全相同,但它们非常相似,你可以知道它们很可能属于同一个物种(或至少属于同一个属)原创 2020-11-29 20:49:05 · 1784 阅读 · 0 评论 -
4.3 回归模型评价
111原创 2020-11-29 20:52:03 · 1673 阅读 · 0 评论 -
4.2 分类效果的评价
分类模型建立好后,要评价模型在测试集上预测结果的好坏,使用Sklearn库中的metric模块进行计算表4-1 metrics模块方法的评价方式评价方式功能metrics.accuracy_score计算模型准确率metrics.auc计算ROC曲线下面积AUC,使用梯形原则metrics.classification_report建立一个包含主要评价方法结果的报告metrics.confusion_matrix计算分类器预测结果的混淆矩阵metric原创 2020-11-29 20:49:34 · 793 阅读 · 0 评论 -
4.1 模型训练技巧
模型训练技巧k-折交叉验证1:k-fold将样例划分为K份,若K=样例数,即为留一交叉验证,K-1份作为训练。2:Stratified k-fold 分层交叉验证StratifiedKFold()这个函数较常用,比KFold的优势在于将k折数据按照百分比划分数据集,每个类别百分比在训练集和测试集中都是一样,这样能保证不会有某个类别的数据在训练集中而测试集中没有这种情况,同样不会在训练集中没有全在测试集中,这样会导致结果糟糕透顶。## 加载包import numpy as npimport原创 2020-11-29 20:49:52 · 427 阅读 · 0 评论 -
3.5 特征提取和降维
特征提取用于提升模型的表示能力数据降维主要是在不减少模型准确率的情况下减少数据的特征数量1.主成分分析(PCA)在多元统计分析中,主成分分析是一种分析、简化数据及、提取主要成分的技术。在实际问题中,特征之间可能存在一定的相关性,在这种情况下就存在重叠的信息,主成分分析可以通过少数的特征来保留原始数据及中的大部分分析,从而减少数据维度。较大的特征值保留数据较为主要的信息,保留的每个主成分是将所有原始数据特征进行线性组合,PCA在保留原始数据主要信息的情况下减少数据的维度。但是主成分分析效果主要依赖于给原创 2020-07-18 14:42:51 · 2383 阅读 · 0 评论 -
3.4 数据可视化
1.饼图针对类别数据,如要查看每类数据的百分比,使用Matplotlib库绘制饼图## 加载包import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport scipy as sp## 引入3D坐标系from mpl_toolkits.mplot3d import Axes3D## cm模块提供大量的colormap函数from matplotlib import cmimport matplotli原创 2020-07-16 13:47:39 · 236 阅读 · 0 评论 -
3.3 数据之间的关系
常用的距离度量方式针对鸢尾花数据集,分别计算三种鸢尾花的四种特征的均值,然后分析三种花的4个特征均值在欧氏距离、曼哈顿距离、切比雪夫距离、余弦相似性、相关系数距离、马氏距离等方面的相似程度。...原创 2020-07-15 13:30:19 · 660 阅读 · 0 评论 -
3.2 数据的假设检验
使用Python进行简单的常用的假设检验,主要有数据正态性检验、独立两样本t检验、单因素方差分析、相关性检验。P:拒绝原假设(H0)时犯错误的可能性,这个P值很小(P<0.05代表P很小),则可以认为原假设时错误的。1.K-S检验用来判断一组数据是否服从正态分布使用Scipy库中的stats模块K-S检验Kolmogorov-Smirnov检验它是检验单一样本是否来自某一特定分布的方法。比如检验一组数据是否为正态分布。(它的检验方法是以样本数据的累计频数分布与特定理论分布比较,若两者间原创 2020-07-14 19:36:47 · 980 阅读 · 0 评论 -
3.1数据预处理 python
import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport scipy as spfrom scipy import stats ## 用于相关假设检验## 图像在jupyter notebook中显示%matplotlib inline## 显示的图片格式(mac中的高清格式),还可以设置为"bmp"等格式%config InlineBackend.figure_format = "retina"#原创 2020-07-12 16:20:52 · 223 阅读 · 0 评论