特征工程:归一化、特征组合、高维特征降解

特征工程中的归一化通过线性函数(Min-Max Scaling)和零均值(Z-Score Normalization)方法消除量纲影响,确保不同尺度特征平等参与计算。归一化可以加速梯度下降的收敛过程,而特征组合则用于创建高维特征或降低维度。决策树在寻找有效特征组合时发挥作用,例如通过梯度提升决策树。此外,BatchNormalization、LayerNormalization和WeightNormalization等技术在批量训练中也常用于特征调整。

特征工程

归一化 (Normalization)

归一化的目的是为了消除特征之间的量纲(scale)影响,比如一个特征值在1000左右的特征在参与计算时起的作用,肯定比特征值在10左右的特征大,特征值小产生的影响的会被淹没,因而将他们放缩到同一个量级才能正确分析结果。

常用方法有两种:

  1. 线性函数归一化(Min-Max Scaling):对原始数据进行线性变换,将结果映射到[0, 1]的范围,实现对原始数据的等比缩放。归一化公式为:
    Xnorm=X−XminXmax−XminX_{norm}=\frac{X-X_{min}}{X_{max}-X_{min}}Xnorm=

根据下列步骤复现论文,并给出详细的步骤及代码:1. 研究对象与数据获取 (1) 研究对象定义 核心目标:研究铁基氧化物催化剂(如Fe₂O₃、Fe₃O₄、FeOOH等)在活化过硫酸盐(PMS/PDS)体系中对不同抗生素的降解性能。 关键科学问题: 铁基催化剂的活性位点与抗生素分子结构的匹配关系。 反应条件(pH、温度、PMS浓度)对自由基/非自由基路径的调控机制。 (2) 数据获取方法 数据来源: 文献数据库:Web of Science、ScienceDirect、PubMed、CNKI。 关键词组合: 英文:"iron-based catalysts" AND "antibiotic degradation"、"persulfate activation" AND "FeOx"。 中文:"铁基催化剂" AND "抗生素降解"、"过硫酸盐活化"。 筛选标准: 实验数据完整(催化剂组成、反应条件、降解率、机理分析)。 时间范围:近10年(2014-2024),优先选择高影响因子期刊。 数据收集内容: 催化剂特征:化学组成(如Fe₃O₄@C)、载体(如石墨烯、生物炭)、合成方法(水热法、煅烧)。 实验条件:抗生素类型(如四环素、磺胺类)、初始浓度、催化剂投加量、PMS/PDS浓度、pH、温度、反应时间。 性能指标:去除率(%)、降解动力学常数(k值)、自由基贡献(EPR/淬灭实验数据)。 数据规模目标:收集至少150组数据(需覆盖5种以上抗生素、10种以上铁基催化剂)。 2. 机器学习方法扩展 (1) 基础模型选择与改进 回归任务(预测去除率): 模型扩展:在AdaBoost基础上,增加XGBoost、LightGBM、随机森林、神经网络(MLP)。 改进点: 动态特征选择:使用递归特征消除(RFE)自动筛选关键变量。 数据增强:对少数样本(如特定抗生素)使用SMOTE过采样。 分类任务(预测降解机制): 模型扩展:引入图神经网络(GNN),直接处理抗生素分子图结构(非SMILES编码)。 改进点: 多标签分类:允许同时预测自由基(·OH、SO₄⁻)和非自由基(¹O₂)贡献比例。 (2) 新增研究方法 迁移学习: 预训练策略:利用已有钴基催化剂数据(原论文数据集)预训练模型,再通过铁基数据微调,解决小样本问题。 强
最新发布
04-10
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值