分类
一个数据库记录由两部分组成:原始序列数据和描述这些数据生物学信息的注释。
记录格式
- FASTA
在生物信息学中,FASTA 格式是一种用于记录核酸序列或肽序列的文本格式,其中的核酸或氨基酸均以单个字母编码呈现。该格式同时还允许在序列之前定义名称和编写注释。这一格式最初由 FASTA 软件包定义,但现今已是生物信息学领域的一项标准。
FASTA 格式中的一条完整序列,包含开头的单行描述行和多行序列数据。描述行行首前置半角大于号(“>”)以和数据行区分。“>” 后紧接的内容为该序列的标识符,该行剩余部分则为序列的描述(标识符与描述均非必须)。“>” 和标识符之间不应有空格,且建议将单行内容限制在 80 字符以内。序列的结束以下一条序列的 “>” 出现为标识。如下为 FASTA 格式一条序列的示例: