25、RNA结构高通量分析及三维建模方法解析

RNA结构高通量分析及三维建模方法解析

一、RNA结构高通量分析

1.1 PROBer处理与归一化

在RNA结构高通量分析中,FPKM(每百万读取中每千碱基的片段数)信息是重要的数据。.beta和.gamma文件分别包含每个核苷酸的反应性谱和转录酶噪声。可以从.beta文件计算归一化的反应性谱。

以流感病毒的SHAPE - seq数据为例,该病毒基因组由八个分段的病毒RNA(vRNA)组成。使用PROBer处理这些数据,并通过90% Winsorization对概率进行归一化。在第5段vRNA中预测到一个假结结构,其长度约为1500 nt,因此选择第5段vRNA作为高通量测序(HTS)分析的示例。

1.2 BUMHMM分析步骤

1.2.1 数据准备

在开始BUMHMM分析之前,需要将每个核苷酸的覆盖度、终止计数和终止率计算并保存到以制表符分隔的文件中。以下是示例数据:
| | C1 | C2 | T1 | T2 |
| — | — | — | — | — |
| | 50258 | 10914 | 22580 | 10548 |
| | 61362 | 13558 | 24949 | 11371 |

其中,“C1”和“C2”表示对照实验的重复1和2,“T1”和“T2”表示处理实验的重复1和2。

在R中,将这些数据存储在SummarizedExperiment对象中,具体操作如下:

library(BUMHMM)
library(Biostrings)
library(SummarizedExperiment)
library(IRanges)
counts <- read.delim("(coverage).txt")
counts <- as.matrix(counts)
dropoff <- read.delim("(dropoff).txt")
dropoff <- as.matrix(dropoff)
rate <- read.delim("(dropoff_rate).txt")
rate <- as.matrix(rate)
colData <- DataFrame(replicate=c("control","control","treatment","treatment"), row.names=c("C1","C2","T1","T2"))
se_exp <- SummarizedExperiment(assays=list(coverage=counts, dropoff_count=dropoff, dropoff_rate=rate), colData=colData)
1.2.2 核苷酸对选择与处理

接下来,进行核苷酸对的选择以计算对数比率,跨重复缩放终止率,并计算用于隐马尔可夫模型(HMM)分析的核苷酸位置延伸。

Nc <- Nt <- 2
t <- 1
nuclSelection <- selectNuclPos(se_exp, Nc, Nt, t)
assay(se_exp, "dropoff_rate") <- scaleDOR(se_exp, nuclSelection, Nc, Nt)
stretches <- computeStretches(se_exp,t)
1.2.3 偏差校正

进行覆盖度偏差和序列偏差的校正:

varStab <- stabiliseVariance(se_exp, nuclSelection, Nc, Nt)
LDR_C <- varStab$LDR_C
LDR_CT <- varStab$LDR_CT

hist(LDR_C, breaks = 30)
nuclNum <- 3
patterns <- nuclPerm(nuclNum)
sequence <- DNAString(scan("(referece sequence).txt", what=""))
nuclPosition <- findPatternPos(patterns, sequence, '+')
1.2.4 后验概率计算与输出

计算HMM的后验概率并保存输出文件:

nuclPosition <- list()
nuclPosition[[1]] <- 1:nchar(sequence)
posteriors <- computeProbs(LDR_C, LDR_CT, Nc, Nt, '+', nuclPosition, nuclSelection$analysedC, nuclSelection$analysedCT, stretches)
head(posteriors)
shifted_posteriors <- matrix(, nrow=dim(posteriors)[1], ncol=1)
shifted_posteriors[1:(length(shifted_posteriors) - 1)] <- posteriors[2:dim(posteriors)[1],2]
plot(shifted_posteriors)
write.csv(shifted_posteriors,"(output probability file name).txt", quote=F, row.names = F)

输出文件包含范围从0到1的概率。

1.3 reactIDR分析步骤

1.3.1 RT终止和覆盖度计数

使用docker镜像中的rt_end_counter对每个核苷酸的RT终止和覆盖度进行计数。假设所有bam文件都存储在/bam目录中,具体操作如下:

$ docker run --name rtecount -it carushi/rt_end_counter -i
$ mkdir bam
$ exit
$ docker start rtecount
$ docker cp (local path of bam files)/. rtecount:/bam/
$ docker exec -it rtecount /bin/bash
$ bash count_and_cov.sh bam/(filename).bam
(convert all bam files to bed)
$ cd bam
$ mkdir bed
$ mv *.bed bed
$ exit
$ docker cp rtecount:/bam/bed (local path to save bed files)
$ docker stop rtecount
$ docker rm rtecount
1.3.2 bed文件转换与合并

将bed文件进行转换和合并:

$ python ../script/bed_to_pars_format.py --offset -1 --fasta (reference fasta file).fa (filename)_l15q0filt_ctss.bed
(convert all ctss bed files)
$ python ../script/bed_to_pars_format.py --offset -0 --fasta (reference fasta file).fa (filename)_l15q0filt_cov.bed
(convert all cov bed files)
$ python ../reactIDR/score_converter.py --merge --output (name)_ctss (filename treatment rep1)_l15q0filt_ctss.bed.tab,(filename treatment rep2)_l15q0filt_ctss.bed.tab (filename control rep1)_l15q0filt_ctss.bed.tab,(filename control rep2)_l15q0filt_ctss.bed.tab
$ python ../reactIDR/score_converter.py --merge --output (name)_cov (filename treatment rep1)_l15q0filt_cov.bed.tab,(filename treatment rep2)_l15q0filt_cov.bed.tab (filename control rep1)_l15q0filt_cov.bed.tab,(filename control rep2)_l15q0filt_cov.bed.tab
1.3.3 参数评估(可选)

可以从预测的二级结构评估参数。使用RNA二级结构预测程序(如RNA fold和CentroidFold)预测RNA二级结构,并获得点括号格式的文件。在该文件所在目录运行以下脚本:

$ python ../reactIDR/IDR_hmm.py --train --time 10 --core 4 --grid --output_param (filename)_train.param.txt --output (filename).csv --ref (reference predicted secondary structure file).fa --case (filename)_ctss_case.tab --cont (filename)_ctss_cont.tab
1.3.4 概率计算

计算概率,如果上一步未创建训练参数文件,则- -param和- -ref选项不是必需的:

$ python ../reactIDR/IDR_hmm.py --test --time 10 --core 4 --param (filename)_train.param.txt --output (filename).csv --ref (reference predicted secondary structure file).fa --case (filename)_ctss_case.tab --cont (filename)_ctss_cont.tab

输出文件为test_(filename).csv,“IDR - HMM - final (transcript name)+case”项表示经过IDR和HMM后的后验概率。

1.3.5 结果可视化

reactIDR包包含用于可视化输出csv文件的Python程序:

$ python ../reactIDR/plot_bargraph.py --window 10 --ignore --output (output file name) (input csv file 1).csv (input csv file 2).csv

该脚本输出每个转录本的PDF文件。

1.4 注意事项

  • 对于非生物信息学家,Python版本控制可能很复杂,建议使用Homebrew安装Python 3,并修改.bash_profile中的路径。
  • 如果使用scipy时出现错误,检查系统中安装的scipy版本,可以使用以下命令安装scipy 1.2.2:
$ pip install scipy==1.2.2
  • 在转录组范围分析中,根据使用的软件,需要使用不同的参考序列。PROBer和reactIDR可以一次计算每个转录本的概率,而BUMHMM一次读取和输出一个序列。
  • 运行BUMHMM时,需要分别计算每个核苷酸的覆盖度、终止计数和终止率。覆盖度可以使用igvtools计算,终止计数可以从sam文件计算,终止率可以从覆盖度和终止计数计算。
  • 可以使用R进行归一化,当使用90% Winsorization进行归一化时,在R中计算第5和第95百分位数,并基于这些值对概率进行归一化。
  • 绘制图表需要安装seaborn和pandas Python包,可以使用以下命令安装:
$ pip install seaborn pandas

二、RNA 3D建模

2.1 引言

非编码RNA分子具有多种细胞功能,从催化作用到小分子检测再到翻译本身。它们通过采用复杂的三维折叠来执行这些功能。随着测序技术的发展,越来越多的RNA分子需要研究,实验方法和结构预测方法都在不断发展。

FARFAR2算法能够对相当复杂的RNA结构进行接近天然结构的预测,包括自动选择最终候选模型和估计模型准确性。可以使用公开可用的网络服务器(https://rosie.rosettacommons.org/farfar2)进行RNA建模。

2.2 FARFAR2 ROSIE服务器接口

2.2.1 基本接口

基本接口允许用户仅提供RNA结构预测任务中最常见的两个数据:序列和点括号二级结构。以甜菜西部黄化病毒(BWYV)的假结 - 1移码元件为例,用户可以指定RNA序列,大小写均可,链边界用逗号分隔。对于BWYV移码元件片段(PDB代码:1L2X),序列输入为:

gcgcggcaccguccgcggaacaaacgg
2.2.2 高级接口

高级接口允许用户指定更多选项,几乎可以指定影响Rosetta的FARFAR2算法命令行执行的每个参数。用户可以创建账户以获得更高优先级和电子邮件通知,也可以作为访客提交任务。如果涉及敏感数据,用户可以将任务设为私有。

2.3 示例分析

  • 简单模型假结 :使用基本接口对甜菜西部黄化病毒的移码元件中的简单模型假结进行建模。
  • RNA - Puzzle 20复制 :使用高级接口对宏基因组扭结姐妹核酶(RNA - Puzzle 20)进行建模。
  • 包含实验数据的建模
  • 用MOHCA - seq实验的低分辨率约束对c - di - GMP核糖开关进行建模。
  • 用1H NMR化学位移对串联GA基序进行建模。

通过这些方法和工具,研究人员可以更深入地了解RNA的结构和功能,为相关领域的研究提供有力支持。

graph LR
    A[RNA结构高通量分析] --> B[PROBer处理]
    A --> C[BUMHMM分析]
    A --> D[reactIDR分析]
    C --> C1[数据准备]
    C --> C2[核苷酸对选择与处理]
    C --> C3[偏差校正]
    C --> C4[后验概率计算与输出]
    D --> D1[RT终止和覆盖度计数]
    D --> D2[bed文件转换与合并]
    D --> D3[参数评估(可选)]
    D --> D4[概率计算]
    D --> D5[结果可视化]
    E[RNA 3D建模] --> F[FARFAR2 ROSIE服务器]
    F --> G[基本接口]
    F --> H[高级接口]
    G --> I[简单模型假结建模]
    H --> J[RNA - Puzzle 20复制]
    H --> K[包含实验数据的建模]

以上内容展示了RNA结构高通量分析和3D建模的详细方法和步骤,希望对相关研究人员有所帮助。

三、RNA结构高通量分析与3D建模的关联及应用拓展

3.1 高通量分析为3D建模提供基础数据

RNA结构高通量分析得到的结果,如核苷酸的反应性谱、后验概率等数据,能够为RNA 3D建模提供重要的约束信息。例如,在使用FARFAR2进行3D建模时,如果结合高通量分析得到的低分辨率约束,像MOHCA - seq实验数据,能够更准确地构建RNA的三维结构。这种关联可以用以下表格来展示:

高通量分析方法 提供的数据类型 对3D建模的作用
PROBer 归一化的反应性谱 辅助确定RNA的局部结构特征
BUMHMM 后验概率 作为结构建模的概率约束
reactIDR 经过IDR和HMM后的后验概率 帮助筛选更合理的3D模型

3.2 应用拓展案例

3.2.1 疾病相关RNA结构研究

在研究与疾病相关的RNA时,先通过高通量分析确定RNA的结构特征,再利用3D建模构建其三维结构。以流感病毒的RNA为例,通过PROBer、BUMHMM和reactIDR等高通量分析方法,得到RNA的反应性和概率信息,然后使用FARFAR2服务器进行3D建模。这样可以深入了解病毒RNA的结构与功能,为开发抗病毒药物提供靶点。

3.2.2 新型RNA分子的功能预测

对于新发现的非编码RNA分子,利用高通量分析和3D建模相结合的方法,可以预测其功能。首先进行高通量分析,确定RNA的二级结构特征,然后使用FARFAR2进行3D建模,通过分析其三维结构,推测其可能参与的细胞过程,如催化作用、小分子结合等。

3.3 未来发展趋势

3.3.1 算法优化

随着数据量的增加和计算能力的提升,高通量分析和3D建模的算法将不断优化。例如,FARFAR2算法可能会进一步提高预测的准确性和效率,能够处理更复杂的RNA结构。

3.3.2 多组学数据整合

未来可能会将RNA结构高通量分析与其他组学数据(如转录组学、蛋白质组学等)进行整合,从而更全面地了解RNA在细胞中的功能和调控机制。

3.3.3 临床应用拓展

在临床诊断和治疗方面,RNA结构分析和建模的应用将不断拓展。例如,通过分析患者体内特定RNA的结构变化,进行疾病的早期诊断和个性化治疗。

graph LR
    A[RNA结构高通量分析] --> B[提供数据] --> C[RNA 3D建模]
    C --> D[疾病相关RNA研究] --> E[抗病毒药物开发]
    C --> F[新型RNA功能预测] --> G[细胞过程推测]
    H[未来发展趋势] --> I[算法优化]
    H --> J[多组学数据整合]
    H --> K[临床应用拓展]

四、总结

RNA结构高通量分析和3D建模是研究RNA结构与功能的重要手段。高通量分析方法(如PROBer、BUMHMM和reactIDR)能够提供RNA的结构特征和概率信息,而FARFAR2算法和其对应的网络服务器则为RNA的3D建模提供了便利。这两种方法相互关联,为研究人员深入了解RNA的结构和功能提供了有力支持。

在实际应用中,它们可以用于疾病相关RNA研究、新型RNA分子的功能预测等多个领域。随着技术的不断发展,未来这些方法将在算法优化、多组学数据整合和临床应用拓展等方面取得更大的进展,为生命科学和医学领域带来更多的突破。

研究人员在使用这些方法时,需要注意一些细节,如Python版本控制、软件的参数设置等。同时,结合不同的实验数据和工具,能够更好地利用这些方法,推动RNA研究的发展。

通过本文的介绍,希望能够帮助研究人员更全面地了解RNA结构高通量分析和3D建模的方法和应用,为相关研究提供参考。

内容概要:本文档是一份关于交换路由配置的学习笔记,系统地介绍了网络设备的远程管理、交换机与路由器的核心配置技术。内容涵盖Telnet、SSH、Console三种远程控制方式的配置方法;详细讲解了VLAN划分原理及Access、Trunk、Hybrid端口的工作机制,以及端口镜像、端口汇聚、端口隔离等交换技术;深入解析了STP、MSTP、RSTP生成树协议的作用与配置步骤;在路由部分,涵盖了IP地址配置、DHCP服务部署(接口池与全局池)、NAT转换(静态与动态)、静态路由、RIP与OSPF动态路由协议的配置,并介绍了策略路由和ACL访问控制列表的应用;最后简要说明了华为防火墙的安全区域划分与基本安全策略配置。; 适合人群:具备一定网络基础知识,从事网络工程、运维或相关技术岗位1-3年的技术人员,以及准备参加HCIA/CCNA等认证考试的学习者。; 使用场景及目标:①掌握企业网络中常见的交换与路由配置技能,提升实际操作能力;②理解VLAN、STP、OSPF、NAT、ACL等核心技术原理并能独立完成中小型网络搭建与调试;③通过命令示例熟悉华为设备CLI配置逻辑,为项目实施和故障排查提供参考。; 阅读建议:此笔记以实用配置为主,建议结合模拟器(如eNSP或Packet Tracer)动手实践每一条命令,对照拓扑理解数据流向,重点关注VLAN间通信、路由选择机制、安全策略控制等关键环节,并注意不同设备型号间的命令差异。
多旋翼无人机组合导航系统-多源信息融合算法(Matlab代码实现)内容概要:本文围绕多旋翼无人机组合导航系统,重点介绍了基于多源信息融合算法的设计与实现,利用Matlab进行代码开发。文中采用扩展卡尔曼滤波(EKF)作为核心融合算法,整合GPS、IMU(惯性测量单元)、里程计和电子罗盘等多种传感器数据,提升无人机在复杂环境下的定位精度与稳定性。特别是在GPS信号弱或丢失的情况下,通过IMU惯导数据辅助导航,实现连续可靠的位姿估计。同时,文档展示了完整的算法流程与Matlab仿真实现,涵盖传感器数据预处理、坐标系转换、滤波融合及结果可视化等关键环节,体现了较强的工程实践价值。; 适合人群:具备一定Matlab编程基础和信号处理知识,从事无人机导航、智能控制、自动化或相关领域研究的研究生、科研人员及工程技术人员。; 使用场景及目标:①应用于多旋翼无人机的高精度组合导航系统设计;②用于教学与科研中理解多传感器融合原理与EKF算法实现;③支持复杂环境下无人机自主飞行与定位系统的开发与优化。; 阅读建议:建议结合Matlab代码与理论推导同步学习,重点关注EKF的状态预测与更新过程、多传感器数据的时间同步与坐标变换处理,并可通过修改噪声参数或引入更多传感器类型进行扩展实验。
源码来自:https://pan.quark.cn/s/28c3abaeb160 在高性能计算(High Performance Computing,简称HPC)范畴内,处理器的性能衡量对于改进系统构建及增强运算效能具有关键价值。 本研究聚焦于一种基于ARM架构的处理器展开性能评估,并就其性能与Intel Xeon等主流商业处理器进行对比研究,特别是在浮点运算能力、存储器带宽及延迟等维度。 研究选取了高性能计算中的典型任务,诸如Stencils计算方法等,分析了在ARM处理器上的移植编译过程,并借助特定的执行策略提升运算表现。 此外,文章还探讨了ARM处理器在“绿色计算”范畴的应用前景,以及面向下一代ARM服务器级SoC(System on Chip,简称SoC)的性能未来探索方向。 ARM处理器是一种基于精简指令集计算机(Reduced Instruction Set Computer,简称RISC)架构的微处理器,由英国ARM Holdings公司研发。 ARM处理器在移动设备、嵌入式系统及服务器级计算领域获得广泛应用,其设计优势体现为高能效比、低成本且易于扩展。 当前的ARMv8架构支持64位指令集,在高性能计算领域得到普遍采用。 在性能测试环节,重点考察了处理器的浮点运算能力,因为浮点运算在科学计算、图形渲染和数据处理等高性能计算任务中扮演核心角色。 实验数据揭示,ARM处理器在双精度浮点运算方面的性能达到475 GFLOPS,相当于Intel Xeon E5-2680 v3处理器性能的66%。 尽管如此,其内存访问带宽高达105 GB/s,超越Intel Xeon处理器。 这一发现表明,在数据密集型应用场景下,ARM处理器能够展现出与主流处理器相匹敌的性能水平。 在实践...
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值