- 博客(246)
- 资源 (1)
- 收藏
- 关注
原创 【论文+代码】基于RF模型和自适应域分解算法(GS-BIRCH)的测井曲线生成研究
基于随机森林和自适应域分解算法的测井曲线构建:(1)加入地层分层信息为物理约束;(2)模型创新集成;(3)自动化的域模型构建;(4)潜在的小层划分方法;(5)适用于小数据集
2025-01-19 09:36:48
76
原创 【top论文+代码】基于Catboos-SMBO-SHAP的润湿性预测和主控因素分析(多组分+混合气体)
✅作者简介:双一流博士,人工智能领域学习者,深耕机器学习,交叉学科实践者。已发表SCI1/区论文10+,发明专利10+。可提供论文服务,代码复现,专利思路和指导,提供科研小工具,分享科研经验,欢迎交流!📌📞联系博主:博文留言+主页底部联系方式+WeChat: Allein_STR📙本文内容:【基于Catboos-SMBO-SHAP的润湿性预测和主控因素分析(多组分+混合气体)】
2025-01-13 13:05:10
177
原创 【论文+代码】基于transformer的端到端符号回归算法
✅作者简介:双一流博士,人工智能领域学习者,深耕机器学习,交叉学科实践者。已发表SCI1/区top论文10+,发明专利10+。可提供论文服务,代码复现,专利思路和指导,提供科研小工具,分享科研经验,欢迎交流!📌个人主页: https://blog.youkuaiyun.com/allein_STR?📞联系博主:博文留言+主页底部联系方式+WeChat: Allein_STR📙本文内容:【基于transformer的端到端符号回归算法】
2025-01-09 22:52:30
1074
1
原创 【超详细】MIT 液态神经网络(LNNs)——深度学习新动向
输入可以是任何形式的时间序列数据,其中表示时间。例如传感器读数、金融市场数据、语音信号等。
2025-01-05 22:22:33
610
原创 【ChatGPT】比尔·盖茨最新分享:ChatGPT的发展,不止于此
本文内容:介绍 比尔·盖茨关于ChatGPT的最新分享:ChatGPT的发展,不止于此
2023-03-25 18:15:10
4408
1
原创 少样本学习综述
元学习是FSL的一种流行方法,它涉及到在各种相关任务上训练模型,以便它能够学习如何有效地学习新任务。该算法学习从可用数据中提取任务无关和任务特定的特征,快速适应新的任务。是一种流行的基于梯度的元学习算法,它学习如何优化模型的参数以快速适应新任务。它通过一系列相关任务来训练模型,并使用每个任务中的一些示例来更新模型的参数。基于度量的元学习算法学习一种特殊的方法来比较每个新任务的不同示例。在训练过程中,算法通过仅使用每个新任务的几个标记示例更新模型参数来学习适应新任务。
2023-03-18 13:12:30
519
原创 【附代码】【入门级】多任务分类学习
1.数据获取与处理使用CIFAR-10[2]数据集,该数据集根据MIT许可证提供。该数据集由60000张32x32像素的RGB图像组成,分为10个不同的类别。它被分为50000个训练样本和10000个测试样本,并且是完美平衡的,这意味着数据集包含每个类6000个图像。数据集包含以下类别:飞机、汽车、鸟、猫、鹿、狗、青蛙、马、船和卡车。
2023-03-16 10:33:00
860
原创 常用的八大概率分布及其实现
A 为观察值,E为理论值,k为观察值的个数,最后一个式子实际上就是具体计算的方法了 n 为总的频数,p为理论频率,那么n*p自然就是理论频数(理论值)n 是称为“自由度”的参数,有时可以看到它被称为“d.o.f.” 对于较高的 n 值,t 分布更接近正态分布。t 分布是在样本量较小且总体标准差未知的情况下估计正态分布总体的均值时出现的连续概率分布族的任何成员。要注意的是,在正态分布中,均值、众数和中位数都是相等的。卡方检验的基本公式,也就是χ2的计算公式,即观察值和理论值之间的偏差。P = 二项分布概率。
2023-03-14 09:54:50
1046
转载 【综述】多任务学习
MT-DNN[1] 是微软开源的框架,主要是利用学习文本的自然语言理解任务通常可以利用多任务学习和预训练两种途径解决的思想,因此二者的结合可以增强文本理解能力,基于以上提出 MT-DNN 框架,集成了 MTL 和 BERT 语言模型预训练二者的优势,在 10 项 NLU 任务上的表现都超过了 BERT,并在通用语言理解评估(GLUE)、斯坦福自然语言推理(SNLI)以及 SciTail 等多个常用 NLU 基准测试中取得了当前最佳成绩。在该权重设置下,虽然每个任务的损失函数恒为 1 ,但是梯度不为 0。
2023-03-12 16:27:48
6099
原创 【数据分析】常见数据降维技术比较
我们比较了一些降维技术的性能,如奇异值分解(SVD)、主成分分析(PCA)和线性判别分析(LDA)。我们的研究结果表明,方法的选择取决于特定的数据集和手头的任务。对于回归任务,我们发现PCA通常比SVD表现得更好。在分类的情况下,LDA优于SVD和PCA,以及原始数据集。线性判别分析(LDA)在分类任务中始终击败主成分分析(PCA)的这个是很重要的,但这并不意味着LDA在一般情况下是一种更好的技术。
2023-03-08 15:10:31
440
原创 【时序】时序预测任务模型选择如何选择?
时间序列是一种特殊类型的数据集,其中一个或多个变量随着时间的推移被测量。在时间序列中,观测值是随着时间的推移而测量的。你的数据集中的每个数据点都对应着一个时间点。这意味着你的数据集的不同数据点之间存在着一种关系。这对可以应用于时间序列数据集的机器学习算法类型有重要影响。
2023-03-08 14:41:58
1354
原创 【时序】特征工程-时间序列特征构造
数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程在机器学习中占有相当重要的地位。在实际应用当中,可以说特征工程是机器学习成功的关键。特征工程是什么?特征工程又包含了 Data PreProcessing(数据预处理)、Feature Extraction(特征提取)、Feature Selection(特征选择)和 Feature construction(特征构造)等子问题;本章内容主要讨论特征构造的方法。时间特构造以及时间序列特征构造的具体方法:对于时间型数据来说,即
2023-03-06 21:53:20
1609
原创 【知识图谱】架构-特点-缺点简介
物联网、云计算、人工智能等新一代信息技术的迅猛发展,带来了制造业的新一轮突破,推动着制造系统向智能化方向发展,驱动着未来制造模式的创新。其中数据和知识是实现制造业与新一代信息技术融合的基础,是实现智能制造的保障。一方面,产品在其生命周期的各个阶段将会产生海量工业数据和知识;另一方面,工业数据和知识是制造领域的信息化进程的必备资源,其中蕴含了大量有用的模式。然而,当前制造领域产品设计、制造、装配、服务等生命周期过程中数据以及知识的存储大多以传统关系型数据库为基础。
2023-02-28 09:27:02
656
原创 【异常检测三件套】系列3--时序异常检测综述
写在前面:异常检测共包含3个内容,从多个方面剖析异常检测方法,本文为第三篇。过往内容请查看以下链接:【异常检测三件套】系列1--14种异常检测算法https://blog.youkuaiyun.com/allein_STR/article/details/128114175?csdn_share_tail=%7B%22【异常检测三件套】系列3--时序异常检测综述本文将从以下6个方面介绍:一、异常分类二、异常检测的挑战三、异常检测的模型分类四、异常检测的数据集五、异常检测的模型表现对比六、结论和未来方向
2023-02-26 14:51:15
644
原创 【持续学习】清华最新持续学习综述
学习是智能系统适应环境的基础。为了应对外界的变化,进化使人类和其他生物具有很强的适应性,能够不断地获取、更新、积累和利用知识。自然,我们期望人工智能(AI)系统以类似的方式适应。这激发了持续学习的研究,其中典型的设置是逐一学习一系列内容,并表现得就像同时观察到的一样(图1,a)。这些内容可以是新技能、旧技能的新示例、不同的环境、不同的背景等,并包含特定的现实挑战。在许多文献中,持续学习也被称为增量学习或终身学习,但没有严格的区分。与传统的基于静态数据分布的机器学习模型不同,
2023-02-22 10:00:23
3448
原创 【一文速通】五个主流过拟合解决方法
过拟合是一个需要解决的问题,因为它会让我们无法有效地使用现有数据。有时我们也可以在构建模型之前,预估到会出现过拟合的情况。通过查看数据、收集数据的方式、采样方式,错误的假设,错误表征能够发现过拟合的预兆。为避免这种情况,请在建模之前先检查数据。但有时在预处理过程中无法检测到过拟合,而是在构建模型后才能检测出来。
2023-02-20 09:57:31
406
转载 【神器】提取时间序列技术指标的神器
如果只需要使用像移动平均线这样的简单指标,这种方法实现起来比较轻松,但当我们需要使用更复杂的数学模型时,此时就会想到想是否有这样的python库来轻松实现,其实这就是API的作用,它们调解低级代码的复杂性,提供一个简化的高级接口。我们可以看到,每当我运行该算法时,就会产生一个新的时间序列,有4个维度,每个维度代表股票的一个OCHL数据。我们的假设是,当趋势的导数(也就是瞬时变化率)根据我们的参数达到最大容忍度时,是股票反转趋势的适当时机。应用该策略后,我们可以看到新的列是如何被添加到我们的原始数据集中的。
2023-02-19 08:45:39
821
原创 神经网络损失函数分布可视化神器
作者主要想研究几个问题:1. 为什么我们能够最小化高度非凸神经损失函数?2. 为什么得到的最小值这个结果具有泛化性?3. 不同的神经网络网络架构如何影响损失函数分布 (loss landascape),以及训练的超参数参数如何影响损失函数分布
2023-02-12 11:45:20
1088
原创 【一文速通】各种机器学习算法的特点及应用场景
近邻 (Nearest Neighbor)KNN算法的核心思想是,如果一个样本在特征空间中的K个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。KNN方法在类别决策时,只与极少量的相邻样本有关。适用情景:由于KNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,KNN方法较其他方法更为适合。
2023-02-10 18:27:11
955
转载 一文解答为什么时序预测很难
时空数据是一个常见的例子,每个观察值都在两个维度上相关,因此数据具有自身的滞后(时间依赖性)和附近位置的滞后(空间依赖性)。平稳性是时间序列的核心概念,如果时间序列的趋势(例如平均水平)不随时间变化,则该时间序列是平稳的。时间序列往往都只包含少量的观察值,可能没有足够的数据来构建足够的模型。多步预测最简单的方法是递归形式,训练单个模型进行单步预测,然后将模型与其先前的预测结果作为输入得到后续的输出。时间序列多步预测需要预测未来多个值, 提前预测许多步骤具有重要的实际优势,多步预测减少了长期的不确定性。
2023-02-08 09:45:03
1176
原创 【附代码】python绘图集锦-偏差 (Deviation)关系图
python绘图集锦系列共7篇文章,本文为偏差 (Deviation)关系图。
2023-02-02 20:49:44
375
原创 【附代码】python绘图集锦-组成(Composition)关系图
python绘图集锦系列共7篇文章,本文为组成(Composition)关系图。【附代码】python绘图集锦-组成(Composition)关系图。1.华夫饼图(Waffle Chart)类似饼图的效果,面积大小反应变量大小。华夫饼图(Waffle Chart)展示较大数据集中的各个组的组成。4.柱状图(Bar Chart)2.饼图(Pie Chart)3.树状图(Treemap)您的支持是我坚持的动力~饼图(Pie Chart)柱状图(Bar Chart。树状图(Treemap)
2023-01-31 11:09:00
430
原创 【附代码】python绘图集锦-分布(Distribution)关系图
python绘图集锦系列共7篇文章,本文为分布(Distribution)关系图。
2023-01-28 10:08:55
670
原创 【附代码】python绘图集锦-关系Correlation图
python绘图集锦系列共7篇,本文为第1篇关系图。包括散点图,边界气泡图,散点图添加趋势线,分面散点图添加趋势线,抖动图,计数图,边缘直方图
2023-01-23 10:00:00
2169
原创 【附代码】十大经典排序算法
从时间复杂度选择:平方阶 (O(n2)) 排序:各类简单排序,直接插入、直接选择和冒泡排序;线性对数阶 (O(nlog2n)) 排序:快速排序、堆排序和归并排序;希尔排序:O(n1+§)) 排序,§ 是介于 0 和 1 之间的常数;线性阶 (O(n)) 排序:基数排序,此外还有桶、箱排序。从稳定性选择:排序后 2 个相等键值的顺序和排序之前它们的顺序相同。稳定的排序算法:冒泡排序、插入排序、归并排序和基数排序。不是稳定的排序算法:选择排序、快速排序、希尔排序、堆排序。
2023-01-21 10:00:00
1437
转载 LSTM模型结构的可视化
上面的图表示包含2个隐含层的LSTM网络,在T=1时刻看,它是一个普通的BP网络,在T=2时刻看也是一个普通的BP网络,只是沿时间轴展开后,T=1训练的隐含层信息H,C会被传递到下一个时刻T=2,如下图所示。这样的数据立方体很多,比如天气预报数据,把样本理解成城市,时间轴是日期,特征是天气相关的降雨风速PM2.5等,这个数据立方体就很好理解了。实际上,右图中,我们看Xt表示序列,下标t是时间轴,所以,A的数量表示的是时间轴的长度,是同一个神经元在不同时刻的状态(Ht),不是隐含层神经元个数。
2023-01-19 10:00:00
711
转载 9个时间序列交叉验证方法的介绍和对比
K-fold交叉验证(图6)是一种用于评估模型性能的流行技术。时间序列交叉验证(及其变体)是一个很好的选择。但是在某些情况下,K-fold交叉验证对时间序列是有用的。但是整个过程是在观测是独立的假设下进行的。所以最好选择一种尊重观察的时间顺序的交叉验证方法。改进的K-Fold交叉验证保留了过程中的打乱部分(图9)。与TimeSeriesSplits不同,每个迭代中的验证原点是随机选择的。这种方法的主要优点是所有的观测结果都在某个时刻被用于验证。一些专门设计的技术用于扩展时间序列的K-Fold交叉验证。
2023-01-17 10:00:00
2149
原创 【附代码】十大主流聚类算法
使用 make _ classification ()函数创建一个测试二分类数据集。数据集将有1000个示例,每个类有两个输入要素和一个群集。这些群集在两个维度上是可见的,因此我们可以用散点图绘制数据,并通过指定的群集对图中的点进行颜色绘制。高斯混合模型总结了一个多变量概率密度函数,顾名思义就是混合了高斯概率分布。均值漂移聚类涉及到根据特征空间中的实例密度来寻找和调整质心。使大数据集的更新速度更快,并且可能对统计噪声更健壮。光谱聚类是一类通用的聚类方法,取自线性线性代数。,您的支持是我坚持的动力~
2023-01-17 09:06:57
1051
sobol敏感性分析 python实现
2022-08-17
手把手教你使用SHAP(数据+代码+注释)
2022-05-09
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人