文件介绍一:gro和pdb(格式要求严格,建议了解下)

在分子模拟中,gropdb 文件是两种常见的分子结构文件格式,它们用于存储分子结构的原子坐标、化学信息和拓扑结构。下面是它们的简要介绍:

1. GRO 文件格式 (GROMACS 格式)

GRO 文件格式通常用于 GROMACS软件包中,保存模拟过程中分子系统的原子坐标。这个格式的文件通常包含了系统中原子的三维坐标,并且文件格式较为紧凑,适合高效处理大规模分子系统。

文件结构:

一个典型的 GRO 文件由以下几部分组成:

注意: 格式要求严格,规定那几列代表了原子的那种信息,注意要严格对齐,建议将格式复制过去,在对应着修改。

  • 标题行:通常是描述文件的简单注释信息(最多 80 个字符)。
  • 原子信息行:每行描述一个原子的坐标信息。每个原子行包含以下内容:
    • 原子编号(从1开始的整数)
    • 原子名称(例如 OCA
    • 分子编号(从1开始的整数,通常指示该原子属于哪个分子)
    • 原子的坐标(x, y, z)
    • 速度(可选,通常用于 MD 模拟中的速度初始化)
    • 格式严格要求,每一列的宽度和位置固定。

每一行的字段信息包括以下内容:

字段 类型 长度 对齐方式 说明
原子编号 (Atom number) 整数 5 右对齐 原子编号,从 1 开始,依次递增。
原子名称 (Atom name) 字符串 5 左对齐 原子名称(如 CAO)。
残基名称 (Residue name) 字符串 5 左对齐 残基名称(如 ALAGLY)。
残基编号 (Residue number) 整数 5 右对齐 残基编号(如 1 表示第一个残基)。
坐标 (Coordinates x, y, z) 浮动数(float) 每个 8 个字符 右对齐 每个原子在 3D 空间中的坐标值,单位为 nm。
速度 (Velocity vx, vy, vz) 浮动数(float) 每个 8 个字符 右对齐 原子的速度分量,单位为 nm/ps 或 km/s。

详细要求说明

  1. 原子编号 (Atom number)
    • 位置:字符 1 到 5
    • 类型:整数
    • 描述:每个原子的编号,按顺序从 1 开始,依次递增。该字段是必需的。
  2. 原子名称 (Atom name)
    • 位置:字符 6 到 10
    • 类型:字符串(最大 5 个字符)
    • 描述:原子的名称,例如 CA(代表氨基酸残基中的 alpha 碳原子)、O(氧原子)等。
  3. 残基名称 (Residue name)
    • 位置:字符 11 到 15
    • 类型:字符串(最大 5 个字符)
    • 描述:表示该原子所属的残基名称。例如 ALA(丙氨酸)、GLY(甘氨酸)等。
  4. 残基编号 (Residue number)
    • 位置:字符 16 到 20
    • 类型:整数
    • 描述:表示该原子所属的残基编号。例如 1 表示第一个残基,2 表示第二个残基等。
  5. 坐标 (Coordinates x, y, z)
    • 位置:字符 21 到 47
    • 类型:浮动数(float)
    • 描述:每个原子在三维空间中的坐标值,单位为纳米(nm),并且每个坐标值保留 3 位小数。每个坐标值占用 8 个字符位置。
  6. 速度 (Velocity vx, vy, vz)
    • 位置:字符 48 到 74
    • 类型:浮动数(float)
    • 描述:每个原子的速度分量,单位为 nm/ps 或 km/s,保留 4 位小数。此项是可选的,通常用于分子动力学模拟的速度初始化。如果不提供速度信息,这一列可以为空。
  • 末尾行:该行包含一个系统的总原子数目。

示例

下面是一个符合要求的 GRO 文件片段,展示了 5 个原子的信息:

示例:

MD of 2 waters, t= 0.0
    6
    1WATER  OW1    1   0.126   1.624   1.679  0.1227 -0.0580  0.0434
    1WATER  HW2    2   0.190   1.661   1.747  0.8085  0.3191 -0.7791
    1WATER  HW3    3   0.177   1.568   1.613 -0.9045 -2.6469  1.3180
    2WATER  OW1    4   1.275   0.053   0.622  0.2519  0.3140 -0.1734
    2WATER  HW2    5   1.337   0.002   0.680 -1.0641 -1.1349  0.0257
    2WATER  HW3    6   1.326   0.120   0.568  1.9427 -0.8216 -0.0244
   1.82060   1.82060   1.82060

解释:
– 该文件描述了一个包含 5 个原子的系统(编号从 1 到 5)。
– 每个原子的坐标都列出,并指定了原子类型和所属分子。

2. PDB 文件格式 (Protein Data Bank 格式)

PDB 文件格式是生物分子结构的标准格式之一,尤其用于表示蛋白质、核酸及其他生物大分子的三维结构。它由蛋白质数据银行(Protein Data Bank)发展并广泛使用。相比 GRO 文件,PDB 文件的格式较为复杂,包含更多的化学和结构信息。

注意:这个格式好像没有gro那样严格要求,不过建议按照标准的来

文件结构:

一个典型的 PDB 文件由以下几部分组成:

  • HEADER:文件的注释信息,通常包含结构名称和其他元数据。
  • ATOM:列出每个原子的详细信息,包括:
    • 原子名称(例如 CAN 等)
    • 原子编号
    • 所在的残基(例如某个氨基酸残基的名称)
    • 链标识符(例如 AB 等,用于标识蛋白质链)
    • 原子坐标(x, y, z)
    • 占据度(占据率)
    • 温度因子(通常与原子的热振动相关)
  • TER:表示链的结束。
  • END:表示文件的结束。
字段 位置 长度 类型 对齐方式 说明
记录类型 (Record name) 字符 1 到 6 6 个字符 字符串 左对齐 记录类型,通常为 ATOMHETATM
原子编号 (Atom serial number) 字符 7 到 11 5 个字符 整数 右对齐 原子的编号,通常为从 1 开始的整数。
原子名称 (Atom name) 字符 13 到 16 4 个字符 字符串 左对齐 原子名称(例如 CAO)。
残基名称 (Residue name) 字符 18 到 20 3 个字符 字符串 左对齐 残基名称(例如 ALAGLY)。
链标识符 (Chain identifier) 字符 22 1 个字符 字符串 左对齐 链的标识符,表示原子所属的多肽链。
残基编号 (Residue sequence number) 字符 23 到 26 4 个字符 整数 右对齐 残基编号,表示原子所属的残基位置。
坐标 (Coordinates x, y, z) 字符 31 到 54 每个 8 个字符 浮动数(float) 右对齐 原子在三维空间中的坐标,单位为 Å(埃),保留 3 位小数。
占据率 (Occupancy) 字符 55 到 60 6 个字符 浮动数(float) 右对齐 占据率,表示该原子在该位置的占据程度。
温度因子 (Temperature factor) 字符 61 到 66 6 个字符 浮动数(float) 右对齐 温度因子(B 因子),描述原子位置的热运动程度。
元素符号 (Element symbol) 字符 77 到 78 2 个字符 字符串 左对齐 元素符号,如 CNO 等。
电荷 (Charge) 字符 79 到 80 2 个字符 字符串 左对齐 电荷,通常为空格或表示原子的电荷状态(例如 +1)。

示例:

HEADER    ALPHA-HELIX PROTEIN
ATOM      1  N   ALA A   1      11.104  13.897   6.424  1.00 24.97           N  
ATOM      2  CA  ALA A   1      12.172  14.634   5.575  1.00 20.33           C  
ATOM      3  C   ALA A   1      12.468  13.801   4.370  1.00 19.65           C  
ATOM      4  O   ALA A   1      13.370  14.242   3.697  1.00 21.13           O  
ATOM      5  CB  ALA A   1      12.533  16.080   5.939  1.00 20.56           C  
ATOM      1  H1  LYS     1      14.260   6.590  34.480  1.00  0.00
ATOM      2  H2  LYS     1      13.760   5.000  34.340  1.00  0.00
ATOM      3  N   LYS     1      14.090   5.850  33.800  1.00  0.00
ATOM      4  H3  LYS     1      14.920   5.560  33.270  1.00  0.00
TER
END

解释:
– 该文件描述了一个由单个氨基酸(ALA)构成的肽段。
– 每个 ATOM 行包括原子的名称、所在残基(ALA)、链标识符(A)以及其三维坐标。

主要区别:

  1. 格式设计PDB 文件格式更具可读性,通常用于展示结构;而 GRO 文件格式更为简洁,主要用于分子模拟中的高效处理。
  2. 信息量PDB 文件包含更多的结构信息(如氨基酸的序列、链信息、原子类型等),而 GRO 文件通常仅包含坐标和一些基本的分子信息。
  3. 应用场景PDB 文件常用于分子结构的展示和分析,GRO 文件常用于 GROMACS 等分子模拟软件中的输入文件。

总结来说,GRO 文件信息更少,为gromacs服务,只有坐标和速度幸喜。而 PDB 文件适合用于存储和展示生物分子结构的详细信息,里面不仅有坐标和速度还有原子链接等等一些信息。

© 版权声明

相关文章

暂无评论

暂无评论...