[Jzoj] 2197. 三核苷酸

本文探讨了DNA序列中三核苷酸片段的统计分析方法,通过计算这些片段的距离和方差,揭示了序列内部的结构特征。文章详细解释了分析流程,包括片段的编号、配对和距离计算,并提供了计算样本数据方差的公式。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

题目描述

三核苷酸是组成DNADNADNA序列的基本片段。具体来说,核苷酸一共有444种,分别用’A’,’G’,’C’,’T’’A’,’G’,’C’,’T’AGCT来表示。而三核苷酸就是由333个核苷酸排列而成的DNADNADNA片段

三核苷酸一共有646464种。给定一个长度为LLLDNADNADNA序列,一共可以分辨出(L−2)(L-2)L2个三核苷酸。现在我们想用一些统计学的方法来进行一些分析,步骤如下:

1.1.1.对于这(L−2)(L-2)L2个三核苷酸,我们从左到右给予编号,分别为111L−2L-2L2

2.2.2.从这(L−2)(L-2)L2个三核苷酸挑选一对出来,一共有(L−2)∗(L−3)/2(L-2)*(L-3)/2(L2)(L3)/2种可能。如果某一对三核苷酸是一样的,我们就记录他们之间的距离。他们之间的距离定义为他们的编号之差。

3.3.3.根据我们所记录的“样本数据”,我们现在需要计算样本数据的方差。如果样本的大小n=0n=0n=0,那么我们认为S2=X=0S2=X=0S2=X=0

题目解析

aveaveave为平均数,kkk为有多少对,t[i]t[i]t[i]为有每对的值对,答案是

ANS=(ave∗ave∗k+sum(t[i]2)−2∗ave∗sum(t[i]))/kANS=(ave*ave*k+sum(t[i]^2)-2*ave*sum(t[i]))/kANS=(aveavek+sum(t[i]2)2avesum(t[i]))/k

由此可知,不用得到每个t[i]t[i]t[i],只要知道所有t[i]t[i]t[i]的和以及平方和。

a[i]a[i]a[i]为每对的位置,cnt[i]cnt[i]cnt[i]为有多少个片段与iii的相同,sum[i]sum[i]sum[i]t[i]t[i]t[i]的和,sqr[i]sqr[i]sqr[i]t[i]t[i]t[i]的平方和

sum[a[i]]+=cnt[a[i]]∗i−sums[a[i]]sum[a[i]]+=cnt[a[i]]*i-sums[a[i]]sum[a[i]]+=cnt[a[i]]isums[a[i]]{加入第iii段时更新t[i]t[i]t[i]的和}

sqr[a[i]]+=cnt[a[i]]∗i∗i+sqrs[a[i]]−2∗i∗sums[a[i]]sqr[a[i]]+=cnt[a[i]]*i*i+sqrs[a[i]]-2*i*sums[a[i]]sqr[a[i]]+=cnt[a[i]]ii+sqrs[a[i]]2isums[a[i]]{根据平方和公式,加入第iii段时更新t[i]t[i]t[i]的平方和}

最后化简公式可得ans=ans=ans=所有t[i]t[i]t[i]的平方和−t[i]-t[i]t[i]和的平方

代码

#include<bits/stdc++.h>
#define N 100005
using namespace std;
int T;
long long a[N],cnt[N],sqrs[N],sums[N],sum[N],sqr[N],gs,x,y;
double ans;
char c[N];
string s;
int main()
{
	freopen("tri.in","r",stdin);
	freopen("tri.out","w",stdout);
	scanf("%d",&T);
	while(T--)
	{
	  for(int i=111;i<=444;i++)
	   sqr[i]=sum[i]=sqrs[i]=sums[i]=cnt[i]=0; 
	  scanf("%s",c);
	  s=c;
	  for(int i=0;i<s.size();i++)
	   if(s[i]=='A') a[i]=1;
	   else if(s[i]=='G') a[i]=2;
	   else if(s[i]=='C') a[i]=3;
	   else a[i]=4;
	  for(int i=0;i<s.size()-2;i++)
	   a[i]=a[i]*100+a[i+1]*10+a[i+2];
	  for(int i=0;i<s.size()-2;i++)
	  {
	  	sqr[a[i]]+=cnt[a[i]]*i*i+sqrs[a[i]]-2*i*sums[a[i]]; 
	  	sum[a[i]]+=cnt[a[i]]*i-sums[a[i]];
	  	sqrs[a[i]]+=(long long)i*i;
	  	sums[a[i]]+=i;
	  	cnt[a[i]]++;
	  }
	  gs=x=y=ans=0;
	  for(int i=111;i<=444;i++)
	   gs+=cnt[i]*(cnt[i]-1)/2,x+=sqr[i],y+=sum[i];
	  if(gs==0) ans=0;
	  else ans=(1.0*x/gs)-(1.0*y/gs)*(1.0*y/gs);
	  printf("%0.6lf\n",ans);
	}
}
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值