63、DNA序列可视化与聚类及台湾电子健康服务研究

DNA序列可视化与聚类及台湾电子健康服务研究

1. DNA序列可视化与聚类

在DNA研究中,肉眼观察有时能发现计算机难以察觉的模式。为了对长DNA序列进行表征和比较,科学家引入了一种新颖的编码算法,该算法可将DNA序列转化为四个自然数编码序列,这些序列描述了DNA序列中每两个相同且最近的核苷酸之间的距离。

1.1 可视化的优势

可视化数据探索在对数据了解甚少时非常有用。通过肉眼观察对二维数据进行聚类分析,通常比计算方法更快、更简单。可视化数据的相似性分析利用人类的感知和大脑同时处理和比较更多信息,与自动数据挖掘技术相比,具有以下优点:
- 更快的数据探索;
- 提供更高的置信度,结果良好;
- 易于对不均匀和有噪声的数据进行聚类;
- 无需理解复杂的数学或统计算法。

基于这些优势,我们对DNA序列及其核苷酸含量进行可视化,然后根据可视化DNA序列的图形特征进行相似性分析和聚类。该算法将序列视为四种核苷酸(A、G、C或T)出现之间距离的分布,从而考虑了核苷酸在序列中的分布情况。

1.2 DNA序列相似性分析的挑战

DNA序列的相似性分析旨在估计有限核酸碱基字符串(A、C、T、G)集合之间的相似程度。然而,由于DNA一级序列仅由四个碱基组成且长度各异,从少于一百个碱基到超过十万个碱基不等,使用字符串比较技术进行相似性分析并不适用于DNA数据。长序列可分解为对应外显子或内含子的片段,但不同物种的片段长度可能不同。以下是十一种物种β - 珠蛋白基因外显子I的DNA序列:
| 物种 | 长度 | DNA序列 |
| — | — | — |
| 人类 |

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值