提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档
前言
RNAi利用siRNA精确抑制基因表达,减少蛋白质合成,通过RISC切割mRNA实现基因沉默,对基因疗法和疾病治疗有重要意义。随着人工智能的不断发展,机器学习这门技术也越来越重要。在机器学习中,模型训练通过优化算法调整参数以提升性能,常用MSE、MAE等指标评估。
本次比赛旨在利用机器学习技术,预测化学修饰后的siRNA序列在RNA干扰(RNAi)机制下对靶基因的沉默效率。RNAi是一种重要的基因表达调控机制,通过干扰特定基因的表达,可以用于疾病治疗。这次比赛的目标是通过构建并优化模型,准确预测siRNA的沉默效率,从而提升药物设计的效率和效果。
一、跑通baseline
【baseline链接】
https://datawhaler.feishu.cn/wiki/Wl5AwNiwMibQMjkkUxXcnpxvnNW
1.魔塔GPU环境
魔搭链接:https://modelscope.cn/my/mynotebook/preset
选择GPU环境
2.下载代码数据文件

3.运行baseline
在魔塔中上传文件,进入魔塔终端,解压数据集指令:
unzip siRNA_0715.zip
之后打开名字为task3.2_siRNA.ipynb的代码文件,运行。
等待运行结束,得到submission.csv 结果文件,下载它并提交到官网,就完成了。
二、AI与
1.引入库
代码如下:
import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import Dataset, DataLoader
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from tqdm import tqdm
from collections import Counter
from rich import print
from sklearn.metrics import precision_score, recall_score, mean_absolute_error
2.创建基因组分词器
用于将基因组序列分割成
固定长度
。
主要操作:
①将输入序列转化为大写
②将长序列
RNA
分子
分割成更小的片段,有助于后续的分析和解读
class GenomicTokenizer:
def __init__(self, ngram=5, stride=2):
self.ngram = ngram
self.stride = stride
def tokenize(self, t):
t = t.upper()
if self.ngram == 1:
toks = list(t)
e

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



