allein_STR
双一流交叉学科,机器学习/深度学习模型实现,10+篇SCI 1/2区top论文,授权专利6件,公开top,软著2个。
展开
-
【论文+代码】基于RF模型和自适应域分解算法(GS-BIRCH)的测井曲线生成研究
基于随机森林和自适应域分解算法的测井曲线构建:(1)加入地层分层信息为物理约束;(2)模型创新集成;(3)自动化的域模型构建;(4)潜在的小层划分方法;(5)适用于小数据集原创 2025-01-19 09:36:48 · 76 阅读 · 0 评论 -
【top论文+代码】基于Catboos-SMBO-SHAP的润湿性预测和主控因素分析(多组分+混合气体)
✅作者简介:双一流博士,人工智能领域学习者,深耕机器学习,交叉学科实践者。已发表SCI1/区论文10+,发明专利10+。可提供论文服务,代码复现,专利思路和指导,提供科研小工具,分享科研经验,欢迎交流!📌📞联系博主:博文留言+主页底部联系方式+WeChat: Allein_STR📙本文内容:【基于Catboos-SMBO-SHAP的润湿性预测和主控因素分析(多组分+混合气体)】原创 2025-01-13 13:05:10 · 177 阅读 · 0 评论 -
【超详细】MIT 液态神经网络(LNNs)——深度学习新动向
输入可以是任何形式的时间序列数据,其中表示时间。例如传感器读数、金融市场数据、语音信号等。原创 2025-01-05 22:22:33 · 611 阅读 · 0 评论 -
【附代码】【入门级】多任务分类学习
1.数据获取与处理使用CIFAR-10[2]数据集,该数据集根据MIT许可证提供。该数据集由60000张32x32像素的RGB图像组成,分为10个不同的类别。它被分为50000个训练样本和10000个测试样本,并且是完美平衡的,这意味着数据集包含每个类6000个图像。数据集包含以下类别:飞机、汽车、鸟、猫、鹿、狗、青蛙、马、船和卡车。原创 2023-03-16 10:33:00 · 860 阅读 · 0 评论 -
【数据分析】常见数据降维技术比较
我们比较了一些降维技术的性能,如奇异值分解(SVD)、主成分分析(PCA)和线性判别分析(LDA)。我们的研究结果表明,方法的选择取决于特定的数据集和手头的任务。对于回归任务,我们发现PCA通常比SVD表现得更好。在分类的情况下,LDA优于SVD和PCA,以及原始数据集。线性判别分析(LDA)在分类任务中始终击败主成分分析(PCA)的这个是很重要的,但这并不意味着LDA在一般情况下是一种更好的技术。原创 2023-03-08 15:10:31 · 440 阅读 · 0 评论 -
【一文速通】五个主流过拟合解决方法
过拟合是一个需要解决的问题,因为它会让我们无法有效地使用现有数据。有时我们也可以在构建模型之前,预估到会出现过拟合的情况。通过查看数据、收集数据的方式、采样方式,错误的假设,错误表征能够发现过拟合的预兆。为避免这种情况,请在建模之前先检查数据。但有时在预处理过程中无法检测到过拟合,而是在构建模型后才能检测出来。原创 2023-02-20 09:57:31 · 406 阅读 · 0 评论 -
【知识图谱】架构-特点-缺点简介
物联网、云计算、人工智能等新一代信息技术的迅猛发展,带来了制造业的新一轮突破,推动着制造系统向智能化方向发展,驱动着未来制造模式的创新。其中数据和知识是实现制造业与新一代信息技术融合的基础,是实现智能制造的保障。一方面,产品在其生命周期的各个阶段将会产生海量工业数据和知识;另一方面,工业数据和知识是制造领域的信息化进程的必备资源,其中蕴含了大量有用的模式。然而,当前制造领域产品设计、制造、装配、服务等生命周期过程中数据以及知识的存储大多以传统关系型数据库为基础。原创 2023-02-28 09:27:02 · 656 阅读 · 0 评论 -
【数据分析】缺失数据如何处理?pandas
本文主要处理缺失数据原创 2023-03-02 10:05:41 · 558 阅读 · 0 评论 -
常用统计检验Python代码!
常用统计检验Python代码!转载 2023-02-14 09:02:03 · 1489 阅读 · 2 评论 -
【机器学习数据集】如何获得机器学习的练习数据?
【机器学习数据集】如何获得机器学习和深度学习的练习数据?原创 2023-02-16 09:48:29 · 801 阅读 · 0 评论 -
神经网络损失函数分布可视化神器
作者主要想研究几个问题:1. 为什么我们能够最小化高度非凸神经损失函数?2. 为什么得到的最小值这个结果具有泛化性?3. 不同的神经网络网络架构如何影响损失函数分布 (loss landascape),以及训练的超参数参数如何影响损失函数分布原创 2023-02-12 11:45:20 · 1088 阅读 · 0 评论 -
【一文速通】各种机器学习算法的特点及应用场景
近邻 (Nearest Neighbor)KNN算法的核心思想是,如果一个样本在特征空间中的K个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。KNN方法在类别决策时,只与极少量的相邻样本有关。适用情景:由于KNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,KNN方法较其他方法更为适合。原创 2023-02-10 18:27:11 · 955 阅读 · 0 评论 -
【附代码】十大主流聚类算法
使用 make _ classification ()函数创建一个测试二分类数据集。数据集将有1000个示例,每个类有两个输入要素和一个群集。这些群集在两个维度上是可见的,因此我们可以用散点图绘制数据,并通过指定的群集对图中的点进行颜色绘制。高斯混合模型总结了一个多变量概率密度函数,顾名思义就是混合了高斯概率分布。均值漂移聚类涉及到根据特征空间中的实例密度来寻找和调整质心。使大数据集的更新速度更快,并且可能对统计噪声更健壮。光谱聚类是一类通用的聚类方法,取自线性线性代数。,您的支持是我坚持的动力~原创 2023-01-17 09:06:57 · 1051 阅读 · 0 评论 -
【一文速通】机器学习样本不均衡/数据分布不同怎么办?
我们通过解决样本不均衡,可以减少模型学习样本比例的先验信息,以获得能学习到辨别好坏本质特征的模型。可以将不均衡解决方法归结为:通过某种方法使得不同类别的样本对于模型学习中的Loss(或梯度)贡献是比较均衡的。具体可以从数据样本、模型算法、目标函数、评估指标等方面进行优化,其中数据增强、代价敏感学习及采样+集成学习是比较常用的,效果也是比较明显的。其实,不均衡问题解决也是结合实际再做方法选择、组合及调整,在验证中调优的过程。原创 2023-01-13 10:00:00 · 1230 阅读 · 0 评论 -
【一文速通】数据分布不同解决办法
虽然个人建议的是删除分布不一致但不太重要的特征,但有时避免不了碰到分布不一致但又很重要的特征,这时候其实就需要自行trade off特征分布和特征重要性的关系了,比如在第四届工业大数据创新竞赛-注塑成型工艺的虚拟量测中,第5名团队保留了sensor1_mean特征而删除了pack_press_2特征,尽管他们发现pack_press_2从实际生产角度和相关性角度都非常重要,可为了提升模型在测试集的泛化能力和分数,他们没用pack_press_2特征,如图 (,如果引入低置信度样本,会带来很大的噪声。原创 2023-01-11 10:00:00 · 785 阅读 · 0 评论 -
【一文讲通】样本不均衡问题解决--下
1欠采样、过采样欠采样:减少多数类的数量(如随机欠采样、NearMiss、ENN)。过采样:尽量多地增加少数类的的样本数量(如随机过采样、以及2.1.2数据增强方法),以达到类别间数目均衡。还可结合两者做混合采样(如Smote+ENN)。具体还可以参见【scikit-learn的以及github的awesome-imbalanced-learning】2数据增强。原创 2023-01-09 10:00:00 · 747 阅读 · 0 评论 -
【一文讲通】如何检测数据满足同分布
1 统计指标的方法1.1群体稳定性指标(Population Stability Index,PSI)群体稳定性指标(Population Stability Index,PSI), 衡量未来的样本(如测试集)及训练样本评分的分布比例是否保持一致,以评估数据/模型的稳定性(按照经验值,PSI原创 2023-01-07 16:57:45 · 919 阅读 · 0 评论 -
【可视化】无法理解PCA,条件概率,最小二乘回归?可视化帮你!
在下面的示例中,原始数据以3D的形式绘制,但可以通过不同的视角,将其投射到2D空间。下面,OLS是在幕后进行的,以产生回归方程。这是一个很好的迹象,我们所看到的结构反映了现实世界地理的一个重要事实北爱尔兰是四个国家中唯一一个不在大不列颠岛上的。例如,假设我们一开始就知道 "样本人口 "中一群人的身高和手掌大小,并且我们想找出一种方法,从身高预测不在样本中的人的手掌大小。下面,误差的平方表示为正方形,你的工作是选择betas(回归线的斜率和截距),使所有正方形的总面积(误差的平方之和)尽可能的小。原创 2023-01-05 21:11:43 · 388 阅读 · 2 评论 -
【超详细】深度聚类
经典聚类即数据通过各种表示学习技术以矢量化形式表示为特征。随着数据变得越来越复杂和复杂,浅层(传统)聚类方法已经无法处理高维数据类型。为了解决该问题,深度聚类的概念被提出,即联合优化表示学习和聚类。转载 2023-01-05 20:38:24 · 13701 阅读 · 0 评论 -
【超详细】LightGBM介绍与应用
【超详细】LightGBM介绍与应用原创 2023-01-03 13:32:36 · 1727 阅读 · 0 评论 -
Attention九层塔:注意力机制的九重理解
有意思的Attention理解:Attention九层塔:注意力机制的九重理解原创 2022-12-25 20:28:55 · 315 阅读 · 3 评论 -
卷积神经网络压缩方法
卷积神经网络的6种压缩方法转载 2022-12-25 19:59:15 · 705 阅读 · 0 评论 -
【机器学习】23个初中高级机器学习实战项目(附源码)
23个初中高级机器学习实战项目(附源码)原创 2022-12-25 19:14:26 · 972 阅读 · 0 评论 -
【超详细】聚类中性能度量和相似度方法总结
超详细的聚类中性能度量和相似度方法总结原创 2022-12-25 17:17:57 · 848 阅读 · 0 评论 -
【一文讲通】样本不均衡问题解决--上
分类模型中类别不均衡问题解决--完整版记录原创 2022-12-25 12:23:41 · 786 阅读 · 0 评论 -
【已解决】运行GAN时Torch报错
RuntimeError: one of the variables needed for gradient computation has been modified by an inplace operation: [torch.cuda.FloatTensor [2048]] is at version 4; expected version 3 instead. Hint: enable anomaly detection to find the operation that failed to c原创 2022-12-14 15:33:10 · 475 阅读 · 0 评论 -
【超全面】机器学习中的超参优化方法总结
【超全面】机器学习中的超参优化方法总结原创 2022-12-06 13:46:46 · 1520 阅读 · 0 评论 -
【分类特征编码】11种分类特征编码方法
11种分类特征编码方法原创 2022-11-30 15:11:08 · 561 阅读 · 0 评论 -
【异常检测三件套】系列1--14种异常检测算法
14种异常检测算法原创 2022-11-30 14:56:56 · 2647 阅读 · 0 评论 -
【聚类】超详细的性能度量和相似度方法总结
聚类算法是非监督学习最常用的一种方法,性能度量是衡量学习模型优劣的指标,也可作为优化学习模型的目标函数。聚类性能度量根据训练数据是否包含标记数据分为两类,一类是将聚类结果与标记数据进行比较,称为“外部指标”;另一类是直接分析聚类结果,称为内部指标。本文对这两类的性能度量以及相似度方法作一个详细总结。原创 2022-11-23 15:47:33 · 604 阅读 · 0 评论 -
8个常见的机器学习算法的计算复杂度总结
8个常见的机器学习算法的计算复杂度总结转载 2022-11-23 15:26:29 · 850 阅读 · 0 评论 -
最大熵模型算法总结
介绍基于条件概率分类的两种模型算法:逻辑斯蒂(logistic)回归与最大熵模型,其中,logistic回归模型和最大熵模型分别是基于最大似然函数和熵来估计模型P(y|x)。转载 2022-11-23 15:19:43 · 1183 阅读 · 0 评论 -
机器学习中常用的评价指标
机器学习常用的评价指标汇总原创 2022-11-12 14:31:19 · 950 阅读 · 0 评论 -
【十问十答】回归模型知识点
回归模型相关知识十问十答原创 2022-11-12 14:19:22 · 1813 阅读 · 0 评论 -
机器学习中常用的不等式
机器学习中常用的不等式原创 2022-11-11 21:24:04 · 1035 阅读 · 0 评论 -
【Python】常用距离计算方法
简要介绍常用的距离测量方法,并给出计算公式、python代码、适用条件等原创 2022-11-11 20:49:27 · 2004 阅读 · 0 评论 -
常见机器学习算法的优缺点及如何选择2
常见机器学习算法的优缺点及如何选择2转载 2022-10-30 23:30:38 · 669 阅读 · 0 评论 -
常见机器学习算法的优缺点及如何选择1
常见机器学习算法的优缺点及如何选择原创 2022-10-30 23:00:42 · 717 阅读 · 0 评论 -
【九问九答】你真的会优化网络吗?
目录1. 神经网络有什么难点问题?2. 训练神经网络时常用的优化算法有什么?(1)小批量梯度下降(Mini-Batch Gradient Descent).为什么要使用小批量梯度下降法?影响小批量梯度下降法的主要因素有什么?3. 学习率详细介绍(1)学习率衰减是什么(2)学习率衰减方法有什么(3)学习率预热是什么(4)自适应调整学习率的方法有什么AdaGrad算法RMSprop算法AdaDelta算法4.梯度估计修正方法有什么1)动量法..原创 2022-04-23 17:37:57 · 1539 阅读 · 0 评论 -
【八问八答】循环神经网络
1. 如何给网络增加记忆能力?1)延时神经网络一种简单的利用历史信息的方法是建立一个额外的延时单元,用来存储网络 的历史信息(可以包括输入、输出、隐状态等). 比较有代表性的模型是延时神 经网络(Time Delay Neural Network,TDNN)延时神经网络是在前馈网络中的非输出层都添加一个延时器,记录神经元的 最近几次活性值. 在第t个时刻,第𝑙 层神经元的活性值依赖于第𝑙 − 1层神经元的 最近𝐾 个时刻的活性值,即其中 表示第 𝑙 层神经元在时刻 𝑡 的活性值,𝑀𝑙..原创 2022-04-16 16:26:36 · 2423 阅读 · 0 评论