文件介绍一:gro和pdb(格式要求严格,建议了解下)
在分子模拟中,gro
和 pdb
文件是两种常见的分子结构文件格式,它们用于存储分子结构的原子坐标、化学信息和拓扑结构。下面是它们的简要介绍:
1. GRO 文件格式 (GROMACS 格式)
GRO
文件格式通常用于 GROMACS软件包中,保存模拟过程中分子系统的原子坐标。这个格式的文件通常包含了系统中原子的三维坐标,并且文件格式较为紧凑,适合高效处理大规模分子系统。
文件结构:
一个典型的 GRO
文件由以下几部分组成:
注意: 格式要求严格,规定那几列代表了原子的那种信息,注意要严格对齐,建议将格式复制过去,在对应着修改。
- 标题行:通常是描述文件的简单注释信息(最多 80 个字符)。
- 原子信息行:每行描述一个原子的坐标信息。每个原子行包含以下内容:
- 原子编号(从1开始的整数)
- 原子名称(例如
O
或CA
) - 分子编号(从1开始的整数,通常指示该原子属于哪个分子)
- 原子的坐标(x, y, z)
- 速度(可选,通常用于 MD 模拟中的速度初始化)
- 格式严格要求,每一列的宽度和位置固定。
每一行的字段信息包括以下内容:
字段 | 类型 | 长度 | 对齐方式 | 说明 |
---|---|---|---|---|
原子编号 (Atom number) | 整数 | 5 | 右对齐 | 原子编号,从 1 开始,依次递增。 |
原子名称 (Atom name) | 字符串 | 5 | 左对齐 | 原子名称(如 CA 、O )。 |
残基名称 (Residue name) | 字符串 | 5 | 左对齐 | 残基名称(如 ALA 、GLY )。 |
残基编号 (Residue number) | 整数 | 5 | 右对齐 | 残基编号(如 1 表示第一个残基)。 |
坐标 (Coordinates x, y, z) | 浮动数(float) | 每个 8 个字符 | 右对齐 | 每个原子在 3D 空间中的坐标值,单位为 nm。 |
速度 (Velocity vx, vy, vz) | 浮动数(float) | 每个 8 个字符 | 右对齐 | 原子的速度分量,单位为 nm/ps 或 km/s。 |
详细要求说明
- 原子编号 (Atom number):
- 位置:字符 1 到 5
- 类型:整数
- 描述:每个原子的编号,按顺序从 1 开始,依次递增。该字段是必需的。
- 原子名称 (Atom name):
- 位置:字符 6 到 10
- 类型:字符串(最大 5 个字符)
- 描述:原子的名称,例如
CA
(代表氨基酸残基中的 alpha 碳原子)、O
(氧原子)等。
- 残基名称 (Residue name):
- 位置:字符 11 到 15
- 类型:字符串(最大 5 个字符)
- 描述:表示该原子所属的残基名称。例如
ALA
(丙氨酸)、GLY
(甘氨酸)等。
- 残基编号 (Residue number):
- 位置:字符 16 到 20
- 类型:整数
- 描述:表示该原子所属的残基编号。例如
1
表示第一个残基,2
表示第二个残基等。
- 坐标 (Coordinates x, y, z):
- 位置:字符 21 到 47
- 类型:浮动数(float)
- 描述:每个原子在三维空间中的坐标值,单位为纳米(nm),并且每个坐标值保留 3 位小数。每个坐标值占用 8 个字符位置。
- 速度 (Velocity vx, vy, vz):
- 位置:字符 48 到 74
- 类型:浮动数(float)
- 描述:每个原子的速度分量,单位为 nm/ps 或 km/s,保留 4 位小数。此项是可选的,通常用于分子动力学模拟的速度初始化。如果不提供速度信息,这一列可以为空。
- 末尾行:该行包含一个系统的总原子数目。
示例
下面是一个符合要求的 GRO
文件片段,展示了 5 个原子的信息:
示例:
MD of 2 waters, t= 0.0
6
1WATER OW1 1 0.126 1.624 1.679 0.1227 -0.0580 0.0434
1WATER HW2 2 0.190 1.661 1.747 0.8085 0.3191 -0.7791
1WATER HW3 3 0.177 1.568 1.613 -0.9045 -2.6469 1.3180
2WATER OW1 4 1.275 0.053 0.622 0.2519 0.3140 -0.1734
2WATER HW2 5 1.337 0.002 0.680 -1.0641 -1.1349 0.0257
2WATER HW3 6 1.326 0.120 0.568 1.9427 -0.8216 -0.0244
1.82060 1.82060 1.82060
解释:
– 该文件描述了一个包含 5 个原子的系统(编号从 1 到 5)。
– 每个原子的坐标都列出,并指定了原子类型和所属分子。
2. PDB 文件格式 (Protein Data Bank 格式)
PDB
文件格式是生物分子结构的标准格式之一,尤其用于表示蛋白质、核酸及其他生物大分子的三维结构。它由蛋白质数据银行(Protein Data Bank)发展并广泛使用。相比 GRO
文件,PDB
文件的格式较为复杂,包含更多的化学和结构信息。
注意:这个格式好像没有gro那样严格要求,不过建议按照标准的来
文件结构:
一个典型的 PDB
文件由以下几部分组成:
- HEADER:文件的注释信息,通常包含结构名称和其他元数据。
- ATOM:列出每个原子的详细信息,包括:
- 原子名称(例如
CA
、N
等) - 原子编号
- 所在的残基(例如某个氨基酸残基的名称)
- 链标识符(例如
A
、B
等,用于标识蛋白质链) - 原子坐标(x, y, z)
- 占据度(占据率)
- 温度因子(通常与原子的热振动相关)
- 原子名称(例如
- TER:表示链的结束。
- END:表示文件的结束。
字段 | 位置 | 长度 | 类型 | 对齐方式 | 说明 |
---|---|---|---|---|---|
记录类型 (Record name) | 字符 1 到 6 | 6 个字符 | 字符串 | 左对齐 | 记录类型,通常为 ATOM 或 HETATM 。 |
原子编号 (Atom serial number) | 字符 7 到 11 | 5 个字符 | 整数 | 右对齐 | 原子的编号,通常为从 1 开始的整数。 |
原子名称 (Atom name) | 字符 13 到 16 | 4 个字符 | 字符串 | 左对齐 | 原子名称(例如 CA 、O )。 |
残基名称 (Residue name) | 字符 18 到 20 | 3 个字符 | 字符串 | 左对齐 | 残基名称(例如 ALA 、GLY )。 |
链标识符 (Chain identifier) | 字符 22 | 1 个字符 | 字符串 | 左对齐 | 链的标识符,表示原子所属的多肽链。 |
残基编号 (Residue sequence number) | 字符 23 到 26 | 4 个字符 | 整数 | 右对齐 | 残基编号,表示原子所属的残基位置。 |
坐标 (Coordinates x, y, z) | 字符 31 到 54 | 每个 8 个字符 | 浮动数(float) | 右对齐 | 原子在三维空间中的坐标,单位为 Å(埃),保留 3 位小数。 |
占据率 (Occupancy) | 字符 55 到 60 | 6 个字符 | 浮动数(float) | 右对齐 | 占据率,表示该原子在该位置的占据程度。 |
温度因子 (Temperature factor) | 字符 61 到 66 | 6 个字符 | 浮动数(float) | 右对齐 | 温度因子(B 因子),描述原子位置的热运动程度。 |
元素符号 (Element symbol) | 字符 77 到 78 | 2 个字符 | 字符串 | 左对齐 | 元素符号,如 C 、N 、O 等。 |
电荷 (Charge) | 字符 79 到 80 | 2 个字符 | 字符串 | 左对齐 | 电荷,通常为空格或表示原子的电荷状态(例如 +1 )。 |
示例:
HEADER ALPHA-HELIX PROTEIN
ATOM 1 N ALA A 1 11.104 13.897 6.424 1.00 24.97 N
ATOM 2 CA ALA A 1 12.172 14.634 5.575 1.00 20.33 C
ATOM 3 C ALA A 1 12.468 13.801 4.370 1.00 19.65 C
ATOM 4 O ALA A 1 13.370 14.242 3.697 1.00 21.13 O
ATOM 5 CB ALA A 1 12.533 16.080 5.939 1.00 20.56 C
ATOM 1 H1 LYS 1 14.260 6.590 34.480 1.00 0.00
ATOM 2 H2 LYS 1 13.760 5.000 34.340 1.00 0.00
ATOM 3 N LYS 1 14.090 5.850 33.800 1.00 0.00
ATOM 4 H3 LYS 1 14.920 5.560 33.270 1.00 0.00
TER
END
解释:
– 该文件描述了一个由单个氨基酸(ALA)构成的肽段。
– 每个 ATOM
行包括原子的名称、所在残基(ALA)、链标识符(A)以及其三维坐标。
主要区别:
- 格式设计:
PDB
文件格式更具可读性,通常用于展示结构;而GRO
文件格式更为简洁,主要用于分子模拟中的高效处理。 - 信息量:
PDB
文件包含更多的结构信息(如氨基酸的序列、链信息、原子类型等),而GRO
文件通常仅包含坐标和一些基本的分子信息。 - 应用场景:
PDB
文件常用于分子结构的展示和分析,GRO
文件常用于 GROMACS 等分子模拟软件中的输入文件。
总结来说,GRO
文件信息更少,为gromacs服务,只有坐标和速度幸喜。而 PDB
文件适合用于存储和展示生物分子结构的详细信息,里面不仅有坐标和速度还有原子链接等等一些信息。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...