Datawhale AI 夏令营 siRNA药物药效预测 task02

最新推荐文章于 2025-12-11 20:59:23 发布

原创

最新推荐文章于 2025-12-11 20:59:23 发布 · 317 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #python

1.完整代码

import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler
import lightgbm as lgb

# 数据加载和合并
df_original = pd.read_csv("train_data.csv")
n_original = df_original.shape[0]
df_submit = pd.read_csv("sample_submission.csv")
df = pd.concat([df_original, df_submit], axis=0).reset_index(drop=True)

# 特征构建函数
def siRNA_feat_builder(s: pd.Series, anti: bool = False):
    name = "anti" if anti else "sense"
    df = s.to_frame()
    df[f"feat_siRNA_{
     
     name}_seq_len"] = s.str.len()
    
    nucleotides = "AUGC"
    for pos in [0, -1]:
        for c in nucleotides:
            df[f"feat_siRNA_{
     
     name}_seq_{
     
     c}_{
     
     'front' if pos == 0 else 'back'}"] = (s.str[pos] == c)
    
    patterns = [
        ("AA", "UU"), ("GA", "UU"), ("CA", "UU"), ("UA", "UU"),
        ("UU", "AA"), ("UU"