题目描述
三核苷酸是组成DNADNADNA序列的基本片段。具体来说,核苷酸一共有444种,分别用’A’,’G’,’C’,’T’’A’,’G’,’C’,’T’’A’,’G’,’C’,’T’来表示。而三核苷酸就是由333个核苷酸排列而成的DNADNADNA片段
三核苷酸一共有646464种。给定一个长度为LLL的DNADNADNA序列,一共可以分辨出(L−2)(L-2)(L−2)个三核苷酸。现在我们想用一些统计学的方法来进行一些分析,步骤如下:
1.1.1.对于这(L−2)(L-2)(L−2)个三核苷酸,我们从左到右给予编号,分别为111到L−2L-2L−2。
2.2.2.从这(L−2)(L-2)(L−2)个三核苷酸挑选一对出来,一共有(L−2)∗(L−3)/2(L-2)*(L-3)/2(L−2)∗(L−3)/2种可能。如果某一对三核苷酸是一样的,我们就记录他们之间的距离。他们之间的距离定义为他们的编号之差。
3.3.3.根据我们所记录的“样本数据”,我们现在需要计算样本数据的方差。如果样本的大小n=0n=0n=0,那么我们认为S2=X=0S2=X=0S2=X=0。
题目解析
设aveaveave为平均数,kkk为有多少对,t[i]t[i]t[i]为有每对的值对,答案是
ANS=(ave∗ave∗k+sum(t[i]2)−2∗ave∗sum(t[i]))/kANS=(ave*ave*k+sum(t[i]^2)-2*ave*sum(t[i]))/kANS=(ave∗ave∗k+sum(t[i]2)−2∗ave∗sum(t[i]))/k
由此可知,不用得到每个t[i]t[i]t[i],只要知道所有t[i]t[i]t[i]的和以及平方和。
设a[i]a[i]a[i]为每对的位置,cnt[i]cnt[i]cnt[i]为有多少个片段与iii的相同,sum[i]sum[i]sum[i]为t[i]t[i]t[i]的和,sqr[i]sqr[i]sqr[i]为t[i]t[i]t[i]的平方和
sum[a[i]]+=cnt[a[i]]∗i−sums[a[i]]sum[a[i]]+=cnt[a[i]]*i-sums[a[i]]sum[a[i]]+=cnt[a[i]]∗i−sums[a[i]]{加入第iii段时更新t[i]t[i]t[i]的和}
sqr[a[i]]+=cnt[a[i]]∗i∗i+sqrs[a[i]]−2∗i∗sums[a[i]]sqr[a[i]]+=cnt[a[i]]*i*i+sqrs[a[i]]-2*i*sums[a[i]]sqr[a[i]]+=cnt[a[i]]∗i∗i+sqrs[a[i]]−2∗i∗sums[a[i]]{根据平方和公式,加入第iii段时更新t[i]t[i]t[i]的平方和}
最后化简公式可得ans=ans=ans=所有t[i]t[i]t[i]的平方和−t[i]-t[i]−t[i]和的平方
代码
#include<bits/stdc++.h>
#define N 100005
using namespace std;
int T;
long long a[N],cnt[N],sqrs[N],sums[N],sum[N],sqr[N],gs,x,y;
double ans;
char c[N];
string s;
int main()
{
freopen("tri.in","r",stdin);
freopen("tri.out","w",stdout);
scanf("%d",&T);
while(T--)
{
for(int i=111;i<=444;i++)
sqr[i]=sum[i]=sqrs[i]=sums[i]=cnt[i]=0;
scanf("%s",c);
s=c;
for(int i=0;i<s.size();i++)
if(s[i]=='A') a[i]=1;
else if(s[i]=='G') a[i]=2;
else if(s[i]=='C') a[i]=3;
else a[i]=4;
for(int i=0;i<s.size()-2;i++)
a[i]=a[i]*100+a[i+1]*10+a[i+2];
for(int i=0;i<s.size()-2;i++)
{
sqr[a[i]]+=cnt[a[i]]*i*i+sqrs[a[i]]-2*i*sums[a[i]];
sum[a[i]]+=cnt[a[i]]*i-sums[a[i]];
sqrs[a[i]]+=(long long)i*i;
sums[a[i]]+=i;
cnt[a[i]]++;
}
gs=x=y=ans=0;
for(int i=111;i<=444;i++)
gs+=cnt[i]*(cnt[i]-1)/2,x+=sqr[i],y+=sum[i];
if(gs==0) ans=0;
else ans=(1.0*x/gs)-(1.0*y/gs)*(1.0*y/gs);
printf("%0.6lf\n",ans);
}
}