FASTA格式

编辑
本词条由“匿名用户” 建档。

在生物信息学和生物化学中,FASTA格式是一种基于文本的格式,用于表示核苷酸序列或氨基酸(蛋白质)序列,其中核苷酸或氨基酸使用单字母代码表示。该格式还允许序列名称和注释位于序列之前。该格式起源于FASTA软件包,但现在已成为生物信息学领域近乎通用的标准。 FASTA格式的简单性使得使用文本处理工具和脚本语言操作和解析序列变得容易。 在原始格式中,序列表示为一系列行,每行不超过120个字符,通常不超...

FASTA格式

编辑

生物信息学和生物化学中,FASTA格式是一种基于文本的格式,用于表示核苷酸序列或氨基酸蛋白质)序列,其中核苷酸或氨基酸使用单字母代码表示。 该格式还允许序列名称和注释位于序列之前。 该格式起源于 FASTA 软件包,但现在已成为生物信息学领域近乎通用的标准。

FASTA 格式的简单性使得使用文本处理工具脚本语言操作和解析序列变得容易。

原始格式& 概述

编辑

在原始格式中,序列表示为一系列行,每行不超过 120 个字符,通常不超过 80 个字符。 这可能是为了允许在软件中预先分配固定行大小:当时大多数用户依赖于数字设备公司 (DEC) VT220(或兼容)终端,每行可以显示 80 或 132 个字符。 大多数人更喜欢 80 个字符模式下的较大字体,因此在 FASTA 行中使用 80 个或更少字符(通常为 70 个)成为推荐的时尚。 此外,标准打印页面的宽度为 70 到 80 个字符(取决于字体)。 因此,80个字符成为常态。

FASTA 文件中的xxx行以 > 开头。 (大于)符号或较少见的符号; (分号)被视为评论。 以分号开头的后续行将被软件忽略。 由于xxx使用的注释是xxx个,它很快就被用来保存序列的概要描述,通常以xxx的图书馆入藏号开始,并且随着时间的推移,总是使用 > 变得司空见惯。 对于xxx行,不要使用; 评论(否则将被忽略)。

在xxx行之后(用于序列的xxx描述)是标准单字母字符串中的实际序列本身。 除有效字符外的任何字符都将被忽略(包括空格、制表符、星号等)。 序列以 *(星号)字符结尾(类似于 PIR 格式序列中的使用)也很常见,并且出于同样的原因,在描述和序列之间留空行。

多序列 FASTA 格式将通过在一个公共文件中连接几个单序列 FASTA 文件(也称为多 FASTA 格式)来获得。 这并不意味着与格式矛盾,因为只有 FASTA 文件中的xxx行可以以 ; 开头。 或 >,因此强制所有后续序列以 > 开头 为了被视为不同的(并进一步强制对序列定义行排他性保留>)。 因此,如果将上述示例放在一起,也可以将其视为多序列(即多 FASTA)文件。

FASTA格式

如今,依赖 FASTA 格式的现代生物信息学程序期望序列标题前面有 >,而实际序列虽然通常表示为交错的,即如上例所示在多行上,但当完整时也可能是连续的 stretch 位于单行上。

描述行

编辑

在一种已弃用的做法中,标题行有时包含多个标题,由 A 字符分隔。 在原始的 Pearson FASTA 格式中,一个或多个注释,在行的开头用分号区分,可能出现在标题之后。

内容由匿名用户提供,本内容不代表vibaike.com立场,内容投诉举报请联系vibaike.com客服。如若转载,请注明出处:https://vibaike.com/249897/

(2)
词条目录
  1. FASTA格式
  2. 原始格式& 概述
  3. 描述行

轻触这里

关闭目录

目录