AI for Science大模型技术-2024-Datawhale-AI夏令营

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档


前言

RNAi利用siRNA精确抑制基因表达,减少蛋白质合成,通过RISC切割mRNA实现基因沉默,对基因疗法和疾病治疗有重要意义。随着人工智能的不断发展,机器学习这门技术也越来越重要。在机器学习中,模型训练通过优化算法调整参数以提升性能,常用MSE、MAE等指标评估。

本次比赛旨在利用机器学习技术,预测化学修饰后的siRNA序列在RNA干扰(RNAi)机制下对靶基因的沉默效率。RNAi是一种重要的基因表达调控机制,通过干扰特定基因的表达,可以用于疾病治疗。这次比赛的目标是通过构建并优化模型,准确预测siRNA的沉默效率,从而提升药物设计的效率和效果。


一、跑通baseline

【baseline链接】

https://datawhaler.feishu.cn/wiki/Wl5AwNiwMibQMjkkUxXcnpxvnNW

1.魔塔GPU环境

魔搭链接:https://modelscope.cn/my/mynotebook/preset

选择GPU环境

2.下载代码数据文件

3.运行baseline

在魔塔中上传文件,进入魔塔终端,解压数据集指令:

unzip siRNA_0715.zip

之后打开名字为task3.2_siRNA.ipynb的代码文件,运行。

等待运行结束,得到submission.csv 结果文件,下载它并提交到官网,就完成了。

二、AI与

1.引入库

代码如下:

import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import Dataset, DataLoader
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from tqdm import tqdm
from collections import Counter
from rich import print
from sklearn.metrics import precision_score, recall_score, mean_absolute_error

2.创建基因组分词器

用于将基因组序列分割成 固定长度
主要操作:
①将输入序列转化为大写
②将长序列 RNA 分子 分割成更小的片段,有助于后续的分析和解读
class GenomicTokenizer:
    def __init__(self, ngram=5, stride=2):
        self.ngram = ngram
        self.stride = stride
        
    def tokenize(self, t):
        t = t.upper()
        if self.ngram == 1:
            toks = list(t)
        e
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值