Datawhale AI夏令营 task3打卡

# Task 3 学习笔记

## 1. 新特征引入与生物学角度的考量

### 1.1 序列匹配特征
- **siRNA与target gene序列匹配**:siRNA的反义链与目标基因的序列匹配程度和位置对mRNA的保留水平有显著影响。通过比对分析,可以定量化这一特征。

### 1.2 GC含量特征
- **GC含量**:siRNA的GC含量对其沉默效率有重要影响。适当的GC含量可以增强特异性结合,避免非特异性结合。

### 1.3 修饰碱基序列特征
- **化学修饰**:siRNA的化学修饰,如2′-O-甲基或2′-甲氧乙基取代,可以增强稳定性和减少免疫原性。

## 2. 特征工程实现

### 2.1 特征构建函数
- `siRNA_feat_builder3`:基于生物学先验知识,构建长度、GC含量等特征。
- `siRNA_feat_builder3_mod`:针对修饰siRNA序列的特征构建。

### 2.2 序列特征处理
- 使用`GenomicTokenizer`和`GenomicVocab`类进行n-gram词频统计和词汇表创建。

### 2.3 序列与目标序列对比
- 利用Biopython的`pairwise2`模块进行序列比对,将比对得分作为特征。

## 3. LightGBM模型优化

### 3.1 样本权重调整
- 对低`mRNA_remaining_pct`范围的样本赋予更高权重,以提高模型在关键区域的预测精度。

### 3.2 自定义损失函数
- 使用官方评价指标作为损失函数,以更准确地反映模型性能。

### 3.3 自适应学习率
- 根据模型在验证集上的性能,动态调整学习率。

### 3.4 多折交叉验证
- 实施多折交叉验证来评估模型的稳定性和泛化能力。

## 4. 其他上分思路与模型构建

### 4.1 超参数优化
- 采用网格搜索、随机搜索或贝叶斯优化等方法来找到最优的超参数组合。

<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值