之前一直看到文本对比的项目,我一直不懂为啥,这里看到基因序列,才知道,序列对比中,文本对比的重要。
传统的文本对比,都是逐字对比,这样好处是准确性,1就是1,2就是2,但是这样,用在基因对比上来,动不动都是几百兆的数据,这样来对比,无疑都是作死的的节奏。
两段基因的对比,个人认为,应该是加探针,将一个基因随机抽取一定数量的基因探针,对另外一段基因进行匹配,将数据整理,分析探针的匹配程度,筛选探针有效性,将高匹配的探针综合处理计算,得到基因的匹配位置。
再通过基因的详细对比,获得基因的匹配数量。
如果基因匹配比较少,可以重复上面两不,多次尝试匹配。