AI for Science大模型技术-2024-Datawhale-AI夏令营_rnai 序列修饰ai 模型-优快云博客

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

文章目录

前言
一、跑通baseline
二、使用步骤
- 1.引入库
- 2.读入数据
总结

前言

RNAi利用siRNA精确抑制基因表达，减少蛋白质合成，通过RISC切割mRNA实现基因沉默，对基因疗法和疾病治疗有重要意义。随着人工智能的不断发展，机器学习这门技术也越来越重要。在机器学习中，模型训练通过优化算法调整参数以提升性能，常用MSE、MAE等指标评估。

本次比赛旨在利用机器学习技术，预测化学修饰后的siRNA序列在RNA干扰（RNAi）机制下对靶基因的沉默效率。RNAi是一种重要的基因表达调控机制，通过干扰特定基因的表达，可以用于疾病治疗。这次比赛的目标是通过构建并优化模型，准确预测siRNA的沉默效率，从而提升药物设计的效率和效果。

一、跑通baseline

【baseline链接】

https://datawhaler.feishu.cn/wiki/Wl5AwNiwMibQMjkkUxXcnpxvnNW

1.魔塔GPU环境

魔搭链接：https://modelscope.cn/my/mynotebook/preset

选择GPU环境

2.下载代码数据文件

3.运行baseline

在魔塔中上传文件，进入魔塔终端，解压数据集指令：

unzip siRNA_0715.zip

之后打开名字为task3.2_siRNA.ipynb的代码文件，运行。

等待运行结束，得到submission.csv 结果文件，下载它并提交到官网，就完成了。

二、AI与

1.引入库

代码如下：

import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import Dataset, DataLoader
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from tqdm import tqdm
from collections import Counter
from rich import print
from sklearn.metrics import precision_score, recall_score, mean_absolute_error

2.创建基因组分词器

用于将基因组序列分割成 固定长度 。

主要操作：

①将输入序列转化为大写

②将长序列 RNA 分子 分割成更小的片段，有助于后续的分析和解读

class GenomicTokenizer:
    def __init__(self, ngram=5, stride=2):
        self.ngram = ngram
        self.stride = stride
        
    def tokenize(self, t):
        t = t.upper()
        if self.ngram == 1:
            toks = list(t)
        e