为了简化这个过程,麻省理工学院的研究人员创建了一个机器学习模型,可以直接预测两种蛋白质结合在一起时将形成的复合物。他们的技术比最先进的软件方法快80 到500 倍,并且通常预测更接近实验观察到的实际结构的蛋白质结构。
这项技术可以帮助科学家更好地理解一些涉及蛋白质相互作用的生物过程,例如DNA复制和修复;它还可以加速新药的开发。
“深度学习非常擅长捕捉不同蛋白质之间的相互作用,否则化学家或生物学家很难通过实验来描述这些相互作用。其中一些相互作用非常复杂,人们还没有找到表达它们的好方法。” “这种深度学习模型可以从数据中学习这些类型的交互,”省理工学院计算机科学与人工智能实验室(CSAIL)的博士后、该论文的共同第一作者Octavian-Eugen Ganea 说。
Ganea 的共同第一作者是苏黎世联邦理工学院的研究生黄鑫源。麻省理工学院的合著者包括CSAIL 工程学院人工智能与健康杰出教授Regina Barzilay 和CSAIL 电气工程Thomas Siebel 教授兼数据、系统和社会研究所成员Tommi Jaakkola。该研究将在国际学习表征会议上公布。
研究人员开发的模型名为Equidock,专注于刚体对接——当两个蛋白质通过三维空间中的旋转或平移连接时,就会发生这种对接,但它们的形状不会被挤压或弯曲。该模型采用两种蛋白质的三维结构,并将这些结构转换为可以由神经网络处理的三维图形。蛋白质由氨基酸链形成,其中每个氨基酸由图中的一个节点表示。
研究人员在模型中添加了几何知识,因此它可以理解物体在三维空间中旋转或平移时会如何变化。该模型还内置了数学功能,确保蛋白质始终以相同的方式附着,无论它们存在于三维空间中的哪个位置。这就是蛋白质在人体内的对接方式。
利用这些信息,机器学习系统识别出两种蛋白质中最有可能相互作用并形成化学反应的原子,称为结合口袋位点。然后它利用这些点将两种蛋白质结合成复合物。
“如果我们能够从蛋白质中了解哪些单独的部分可能是这些结合口袋位点,那么这将捕获我们将这两种蛋白质放在一起所需的所有信息。假设我们可以找到这两组点,那么我们可以弄清楚如何旋转和翻译蛋白质,以便一组与另一组匹配,”Ganea 解释道。
构建该模型的最大挑战之一是克服训练数据的缺乏。 Ganea 表示,将几何知识融入Equidock 中尤为重要,因为有关蛋白质的实验3D 数据非常少。如果没有这些几何约束,模型可能会在数据集中发现错误的相关性。
模型经过“训练”后,研究人员将其与四种软件方法进行了比较。 Equidock 只需一到五秒即可预测最终的蛋白质复合物。所有基线都需要更长的时间,从10 分钟到一个小时或更长时间。
在计算预测蛋白质复合物与实际蛋白质复合物的匹配程度的质量测量中,Equidock 的表现通常与基线相当,但有时表现却比基线更差。
“我们仍然落后于基线之一。我们的方法仍然可以改进,它仍然有用。它可以用于一个非常大的虚拟屏幕,我们想要了解数千种蛋白质如何相互作用并形成复合物“我们的方法可以用于非常快速地生成一组初始候选者,然后可以使用一些更准确但速度较慢的传统方法对其进行微调,”Ganea 说。
除了将这种方法与传统模型结合使用之外,该团队还希望将特定的原子相互作用纳入Equidock 中,以便它能够做出更准确的预测。例如,有时蛋白质中的原子通过涉及水分子的疏水相互作用而附着。
Ganea 表示,他们的技术还可以应用于类似于药物的小分子的开发。这些分子以特定方式与蛋白质表面结合,因此快速确定这种附着如何发生可以缩短药物开发时间。
未来,他们计划增强Equidock,以对灵活的蛋白质对接进行预测。最大的障碍是缺乏训练数据,因此Ganea 和他的同事正在努力生成可用于改进模型的合成数据。