生信-序列比较dp[未完成]

 

 

来自:生物信息学-陈铭第二版的一个例题。

题目:

目前的代码,运行不正确,关键就是不知道怎么回溯啊,回溯怎么标记呢?

 

#include <iostream>
#include<vector>
using namespace std;

vector<char> s1,t1;//在回溯的时候使用
string s,t;//输入两个字符串
int dp[30][30];
int maxs(int x,int y,int z){
    if(x>=y&&x>=z)return x;
    else if(y>=x&&y>=z)return y;
    else return z;
}
void dfs(int len1,int len2){
    //递归出口
    if(len1==0||len2==0){//这里有一个问题就是另一个没放完怎么办?我要的是全部的。
         //如果有一个其中没放完,那么接着放。
         if(len1!=0){//如果s1没放完那么
            for(int i=len1-1;i>=0;i--){
                s1.push_back(s[i]);
                t1.push_back('-');
            }
         }
         if(len2!=0){
            for(int i=len2-1;i>=0;i--){
                s1.push_back('-');
                t1.push_back(t[i]);
            }
         }

        //打印s1,t1。
        for(int i=s1.size()-1;i>=0;i--)
            cout<<s1[i]<<" ";
        cout<<"\n";
        for(int i=t1.size()-1;i>=0;i--)
            cout<<t1[i]<<" ";
        cout<<"\n\n";
        return ;
    }

    //先求出左上、上、下三者中最大的值
    int m=maxs(dp[len1-1][len2-1],dp[len1-1][len2],dp[len1][len2-1]);
    if(dp[len1-1][len2-1]==m){//如果这样的话,那么就将二者push进来
        s1.push_back(s[len1-1]);
        t1.push_back(t[len2-1]);
        dfs(len1-1,len2-1);
        s1.pop_back();t1.pop_back();
    }
    if(dp[len1-1][len2]==m){
        s1.push_back(s[len1-1]);
        t1.push_back('-');
        dfs(len1-1,len2);
        s1.pop_back();t1.pop_back();
    }
    if(dp[len1][len2-1]==m){
        s1.push_back('-');
        t1.push_back(t[len2-1]);
        dfs(len1,len2-1);
        s1.pop_back();t1.pop_back();
    }
}

int main() {

    cin>>s>>t;
    int len1=s.size();
    int len2=t.size();
    int x,y,z;
    for(int i=0;i<=len1;i++){
        for(int j=0;j<=len2;j++){
            if(i==0&&j==0){
                dp[i][j]=0;continue;
            }
//            if(i==0||j==0){//这么写是不对的,因为不知道是哪个插入了多少空格。
//                dp[i][j]=-1;continue;
//            }
            if(i==0){//相当于在s中一直插入-。
                dp[i][j]=dp[i][j-1]-1;continue;
            }
            if(j==0){
                dp[i][j]=dp[i-1][j]-1;continue;
            }
            x=dp[i][j-1]-1;//在t中插入空格
            y=dp[i-1][j-1]+(s[i-1]==t[j-1]?2:-1);//比较两者是否相同,相同+2,否则-1
            z=dp[i-1][j]-1;//在s中插入空格
            dp[i][j]=maxs(x,y,z);
        }//在计算y时,一开始没有加上三元表达式的括号,导致计算错误。
    }
    //下面是怎么回溯找到解呢???
    for(int i=0;i<=len1;i++){
        for(int j=0;j<=len2;j++){
            cout<<dp[i][j];
            if(dp[i][j]<0)cout<<" ";
            else cout<<"  ";
        }
        cout<<"\n";
    }
    dfs(len1,len2);
    return 0;
}
/**
acgctg
catgt
**/
View Code

目前的运行结果:

 

dp矩阵是正确的但是回溯结果不对,还是编程能力有限,先思考着,有解了再过来。 

转载于:https://www.cnblogs.com/BlueBlueSea/p/9694802.html

<think>好的,用户想了解Salmon在息学中的文件类型及用途,还有使用方法。首先,我需要回忆一下Salmon的基本息。Salmon是一个用于转录组定量的工具,它通过比对RNA-seq数据来估计基因或转录本的表达量。根据用户提供的引用内容,特别是引用[3]提到Salmon需要cDNA序列和原始的FASTQ文件,新版本还支持基因组序列以提高准确性。 接下来,用户关注的是Salmon涉及的文件类型及其用途。根据经验,Salmon的主要输入文件包括FASTQ测序数据、转录组参考文件(如cDNA序列),可能的基因组参考文件,以及已有的转录组注释文件(如GTF/GFF)。输出文件则包括quant.sf(表达量估计)、logs(日志息)、aux_info(辅助息)和libParams(文库参数)等。 关于使用方法,用户可能需要基本的流程步骤。例如,构建索引和运行定量。需要确保用户了解每个步骤所需的输入文件和命令参数,比如salmon index和salmon quant的区别,以及如何指定输入输出路径。 此外,用户可能还关心注意事项,比如是否需要预处理数据,如何处理链特异性测序,以及如何与其他工具整合。引用[4]提到基因融合的问题,虽然Salmon主要用于定量,但用户可能间接关心结果的准确性,尤其是在复杂情况下的表现。 最后,成相关问题时要覆盖用户可能进一步探索的方向,比如输入文件准备、提高准确性的方法、结果解读、与其他工具的比较以及新功能的应用场景。需要确保引用正确,例如引用[3]关于基因组序列的使用,引用[2]的项目地址等。 需要检查是否有遗漏的重要文件类型或步骤,以及是否解释清晰每个文件的用途。同时,确保使用中文回答,并正确应用LaTeX格式,但根据用户的问题,可能数学公式较少,但如果有统计模型或表达式需要用到的话。例如,表达量估计可能涉及模型,但用户可能更关注文件而不是数学细节。 总结,回答的结构应该是先介绍Salmon的用途,再分输入和输出文件详细说明,接着使用方法分步骤说明,注意事项,最后相关问题。确保引用标记正确,如引用[3]在提及基因组支持时添加[^3]。</think>### Salmon文件类型及用途解析 Salmon是一款高效的转录组定量工具,通过选择性比对实现快速准确的表达量估计[^2]。其文件类型可分为输入文件和输出文件两大类: #### 一、输入文件类型 1. **FASTQ文件** RNA-seq原始测序数据,支持单端/双端测序数据 示例命令片段: ```bash -1 reads_1.fastq -2 reads_2.fastq ``` 2. **转录组参考文件** - cDNA序列文件(FASTA格式):包含所有转录本序列 - 基因组序列文件(FASTA格式):新版本支持,提高比对准确性 - 注释文件(GTF/GFF格式):辅助处理可变剪切事件 3. **预建索引文件** 通过`salmon index`成的二进制索引文件,包含转录组序列的k-mer哈希表 ```bash salmon index -t transcripts.fa -i salmon_index ``` #### 二、输出文件结构 输出目录通常包含以下核心文件: ``` quant_out/ ├── quant.sf # 核心定量结果 ├── logs/ # 运行日志 ├── aux_info/ # 辅助息 │ ├── exp_gc.csv # GC含量校正数据 │ └── bootstrap/ # 置区间数据(启用时成) └── libParams/ # 文库参数估计 ``` 1. **quant.sf文件** | 字段 | 说明 | 计算公式 | |---|---|--| | Name | 转录本ID | - | | Length | 有效长度 | $l_{eff} = l_{tx} - \mu_{frag} + 1$ | | TPM | 每百万转录本数 | $\frac{\text{reads}_i/l_{eff,i}}{\sum (\text{reads}_j/l_{eff,j})} \times 10^6$ | | NumReads | 映射reads数 | 选择性比对算法估计值[^2] | 2. **aux_info/exp_gc.csv** 包含基于GC含量的表达量校正系数,用于消除GC偏好性影响 #### 三、典型工作流程 1. **索引构建** ```bash salmon index -t transcripts.fa -i index -k 31 ``` 2. **表达定量** ```bash salmon quant -i index -l A \ -1 reads_1.fastq -2 reads_2.fastq \ -o quant_out --gcBias ``` - `-l A`:自动检测文库类型 - `--gcBias`:启用GC偏好性校正 #### 四、注意事项 1. **数据预处理** 建议先使用Trim Galore!等工具进行质量过滤 2. **链特异性处理** 通过`--libType`参数指定,例如: - ISR:反向互补链测序(常用Illumina链特异性协议) 3. **下游分析整合** quant.sf可直接导入DESeq2等工具: ```r txi <- tximport("quant_out/quant.sf", type = "salmon") ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值