# Task 3 学习笔记
## 1. 新特征引入与生物学角度的考量
### 1.1 序列匹配特征
- **siRNA与target gene序列匹配**:siRNA的反义链与目标基因的序列匹配程度和位置对mRNA的保留水平有显著影响。通过比对分析,可以定量化这一特征。
### 1.2 GC含量特征
- **GC含量**:siRNA的GC含量对其沉默效率有重要影响。适当的GC含量可以增强特异性结合,避免非特异性结合。
### 1.3 修饰碱基序列特征
- **化学修饰**:siRNA的化学修饰,如2′-O-甲基或2′-甲氧乙基取代,可以增强稳定性和减少免疫原性。
## 2. 特征工程实现
### 2.1 特征构建函数
- `siRNA_feat_builder3`:基于生物学先验知识,构建长度、GC含量等特征。
- `siRNA_feat_builder3_mod`:针对修饰siRNA序列的特征构建。
### 2.2 序列特征处理
- 使用`GenomicTokenizer`和`GenomicVocab`类进行n-gram词频统计和词汇表创建。
### 2.3 序列与目标序列对比
- 利用Biopython的`pairwise2`模块进行序列比对,将比对得分作为特征。
## 3. LightGBM模型优化
### 3.1 样本权重调整
- 对低`mRNA_remaining_pct`范围的样本赋予更高权重,以提高模型在关键区域的预测精度。
### 3.2 自定义损失函数
- 使用官方评价指标作为损失函数,以更准确地反映模型性能。
### 3.3 自适应学习率
- 根据模型在验证集上的性能,动态调整学习率。
### 3.4 多折交叉验证
- 实施多折交叉验证来评估模型的稳定性和泛化能力。
## 4. 其他上分思路与模型构建
### 4.1 超参数优化
- 采用网格搜索、随机搜索或贝叶斯优化等方法来找到最优的超参数组合。