吉林大学法硕(吉林大学法硕非法学)

吉林大学法硕,吉林大学法硕非法学

编辑 | 萝卜皮

RNA二级结构对于破译细胞的活性和疾病的发生非常重要。学术界最先采用的预测这种结构的方法是生物实验,但这种方法成本太高,影响推广。于是,出现了计算方法,具有良好的效率和低成本。

然而,计算方法的准确性并不令人满意。许多机器学习方法也被应用到这个领域,但准确率并没有明显提高。深度学习已经成熟并在计算机视觉和自然语言处理等许多领域取得了巨大的成功。它使用的神经网络是一种具有良好功能性和通用性的结构,但其效果与数据的数量和质量高度相关。目前还没有预测 RNA 二级结构准确率高、数据依赖性低、便捷性高的模型。

吉林大学的研究团队设计了一个名为 LTPConstraint 的神经网络来预测 RNA 二级结构。该网络基于双向 LSTM、Transformer 和生成器等多种网络结构。它还使用迁移学习来训练模型,从而可以减少数据依赖。

LTPConstraint 在 RNA 二级结构预测方面取得了很高的准确性。与以往的方法相比,预测有假结结构和无假结结构的精度都有明显提高。同时,LTPConstraint 操作简单,可以很快达到效果。

该研究以「LTPConstraint: a transfer learning based end-to-end method for RNA secondary structure prediction」为题,于 2022 年 8 月 23 日发布在《BMC Bioinformatics》。

RNA 结构预测的相关背景

核糖核酸(RNA)是生命遗传信息的载体。生物的常规活性取决于编码RNA(例如 mRNA)和非编码 RNA(例如 tRNA,rRNA)的正确表达。它作用于细胞活动的所有过程,直接或间接地关系到疾病的调节和发生。RNA是由长链状分子组成,通常由通过磷酸二酯键连接的四种碱基组成;碱基之间也可以形成氢键,通过氢键连接的两个碱基称为一对碱基;对可分为规范对和非规范对;规范对是指AU、GC、GU的配对,而非规范对是上述以外的配对方式。

RNA在学术上具有四级结构:RNA 的一级结构是由碱基对组成的单链;RNA 的二级结构是 RNA一级结构卷积折叠形成的发夹状复合结构;RNA 的三级结构是在二级结构的基础上进一步弯曲螺旋形成的空间结构;RNA 的四级结构是由 RNA 和蛋白质相互作用产生的核酸和蛋白质的混合物。如图 1 所示,RNA 的二级结构在螺旋折叠后形成各种结构,包括发夹环、茎、内环和假结。

图 1:RNA二级结构。(来源:论文)

假结通常出现在被茎包围的一对单链环中,这种结构与上述一些平面结构的不同之处在于它与 RNA 的空间结构有关。假结的预测具有重要意义,因为假结对 RNA 参与的生命活动有重要影响。但是,正如在图 2 中看到的那样,包含假结的二级结构将从平面视图中形成一个非巢结构。使用动态规划算法可以快速得到所有可能的嵌套结构,但二级结构中含有假结却不能,因此很难预测含有假结的二级结构。

图 2:嵌套和非嵌套结构。(来源:论文)

RNA 的三级结构是解释 RNA 结构与功能之间关系的关键,尤其是被称为非编码 RNA 的结构。同时,RNA 的三级结构也是分析难以表征的 RNA 状态的最直接材料。一般来说,二级结构往往比三级结构形成得更快,所以在预测 RNA 的三级结构之前,获得准确的二级结构是基础。此外,RNA的二级结构与 RNA 的功能有关。因此,准确预测二级结构对于研究 RNA 至关重要。

学者们尝试了不同领域的多种方法来预测二级结构。最初,他们从生物学实验中获得了 RNA 的二级结构。DMS-MaPseq 是一种稳健的检测方法,它利用硫酸二甲酯(DMS)突变分析和测序(MaPseq)的优势,可以轻松地在体外、细胞和病毒粒子中修饰 RNA,从而能够确定不同水平的 RNA 结构。

SHAPE(Selective 2’-hydroxyl acylation analyzed by primer extension)方法可以通过引物延伸分析活细胞中的选择性 2′-羟基酰化反应,通过 SHAPE 可以通过单碱基对分辨率获得相关核苷酸成对或未成对状态的高通量数据。

除上述方法外,最常用的实验方法是 X 射线晶体学和核磁共振。这两种方法还可以提供具有单个碱基对分辨率的结构信息。然而,这些实验方法有两个共同的特点。它们成本高,产量低;这使其在预测大量 RNA 序列时效率低下,并使实验方法难以大规模使用。

计算方法来预测 RNA 结构

降低预测成本,提高效率。学术界已转向计算方法来预测 RNA 二级结构。计算方法可以分为两种类型,比较序列分析和使用热力学、统计或概率评分方案的折叠算法。

比较序列分析通过使用同源序列之间的保守碱基对来预测 RNA 的二级结构。如果能得到同源序列,这种方法准确率很高,但是已知的RNA家族很少,导致数据不足,影响了这种方法的推广。折叠算法通常将整个序列分成子块;然后它根据热力学原理或统计和概率等评分方案对每个子块进行评分后生成最佳二级结构;具有代表性的是使用动态规划算法的最小自由能模型,它的实现包括 RNAstructure 和 RNAfold。

RNAstructure 根据最小自由能算法原理,采用Zuker算法得到最优二级结构。该软件最大的优点是增加了许多额外的模块来扩展 Zuker 算法的功能,丰富了用户体验,其图形化的界面使用户操作方便。特纳提供的热力学数据用于计算每个子结构的自由能。RNAfold 也使用自由能参数;最小自由能法有一个精度上限,这是因为许多真实的RNA二级结构不一定是具有最小自由能的结构,导致最小自由能法的假设不能总是成立。

还有其他计算方法使用机器学习,如 CONTRAfold 使用随机上下文无关文法 (SCFG)。SCFG 模型参数是使用自动统计学习算法得出的。这是一个很大的创新,但即使是最好的 SCFG 模型也没有最小自由能模型的方法那么好。研究人员已经成功地将深度学习与热力学最近邻模型相结合。根据 SHAPE 数据与状态推断的关系,采用双向 LSTM 提取序列特征,然后基于这些特征通过分类器得到序列的状态推断。SHAPE 值是根据 SHPAE 数据与状态推断的关系公式得到的。然后,计算出的 SHAPE 值被用作最近称为 GTfold 的热力学模型的软约束。根据研究人员的描述,这种方法达到了很高的准确性。然而这种方法仍然不是一个完整的端到端 RNA 二级结构预测方法。此外,该方法基于 GTfold 预测 RNA 二级结构,SHAPE 值仅作为补充信息,以提高 GTfold 的预测精度。

近年来,深度学习在计算机视觉和自然语言处理方面取得了突破。在图像翻译上,一个叫做 Pix2pix 的模型使得这类问题得到了一个通用的、足够好的解决方案。传统的图像翻译方法只使用一个原始的 CNN 模型来最小化预测和目标之间的欧几里得距离而没有很好的损失,结果只能得到一个模糊的输出。因此,传统模型往往需要人工设计精确的损失函数来指导 CNN 完成任务。Pix2pix 模型是在 GAN 的基础上设计的。它通过优化高维问题使输出与现实无法区分。具体来说,Pix2pix 构建了一个具有很强特征提取能力的生成器和一个对输入和输出之间的差异进行评分的判别器,使该结构成为图像翻译中的通用方法。

LSTM 和 Transformer 是自然语言处理中出现的两种优秀结构。LSTM(Long Short-Term Memory)是处理不定长度线性序列最常用的模型结构。它是从RNN结构改进而来的。如图 3 所示,在 LSTM 中,添加了三个门结构,称为遗忘门、信息增强门和输出门。LSTM 的三门结构增强了 RNN 长距离提取特征的能力。通过覆盖网络结构来增加信息处理的深度,LSTM 可以使用编码器-解码器框架结合 Attention 机制处理几乎所有的语义问题。

图 3:LSTM的结构。(来源:论文)

Transformer 是近年来深度学习最引人注目的成就之一。Transformer 在多个领域取得了突破性的成就,尤其是在自然语言处理和计算机视觉方面。它巧妙地使用 self-attention 或 multi-head self-attention 进行语义提取。从图 4 可以看出,Transformer 是一种类似于全连接的结构,可以提取句子中每个词之间的连接。它的 multi-head self-attention 可以关注句子中的不同位置,从而更好地提取语义。Transformer 同时对整个句子的所有单词进行操作,而不是顺序处理每个单词,这给 Transformer带来了强大的并行计算能力。与 LSTM 类似,Transformer 可以嵌套到一个编码器-解码器模型中来完成各种语义任务,其在许多任务中的性能甚至优于使用 LSTM 的模型。

图 4:自注意力机制。(来源:论文)

LSTM 和 Transformer 都有自己的长处和短处。曾经有研究团队从语义特征提取能力、远距离捕获能力、任务综合特征提取能力和并行计算能力等方面对比了 LSTM 和 Transformer。结果表明 Transformer 在四个方面优于 LSTM,尤其是在并行计算能力方面。

由于LSTM是时序线性结构,其并行计算能力很弱,这是一个难以弥补的结构缺陷。此外,transformer 结构解决了 LSTM 在序列过长时仍会出现长记忆丢失的问题。然而,自注意力机制缺乏时间维度的建模。换句话说,Transformer 对输入语句的词序不敏感。因此,在当前的 Transformer 结构中使用了位置编码机制;它直接将顺序时序数据添加到 Transformer 中。

当然,这样的机制不如 LSTM 的自然时序结构。这显然是权宜之计,这可能导致 Transformer 在词序敏感任务上表现不佳。LSTM虽然适用于上述场景,但面对大数据集却无法训练。其缺乏并行计算时间序列结构导致运行缓慢。同时,当学习到的数据量超过一定阈值时,LSTM 就无法再提升了。根据上面的描述,Transformer 可以很好地处理这样的场景。

随着神经网络的发展,模型的深度越来越大,拟合网络所需的数据量也越来越大。如今,从头开始训练模型已成为一项耗时费力的任务。为了解决这个问题,深度神经网络的迁移学习应运而生。迁移学习的核心是使用预训练模型。通过使用高质量数据集训练一些具有高鲁棒性的网络结构得到预训练模型。然后可以转移预训练模型以训练其他相关数据。

换句话说,无需针对特定问题从头开始训练模型。研究人员可以找到类似问题的预训练模型,然后使用少量问题特定数据对其进行训练,这将显著减少训练时间和需要拟合的数据量,因为预训练模型在预训练期间学习了很多相关特征,因此预训练数据与问题特定数据共享的特征越多,转移学习过程就越容易。研究人员只需要设计微调机制;操作简单易懂,但效果显着。

端到端预测模型

吉林大学的研究人员构建了 RNA 二级结构 LTPConstraint 的端到端预测模型。该网络有多种子结构,不同的子结构相互配合、相辅相成,构成了 LTPConstraint 网络的三个模块。

第一个模块由 Bi-LSTM 和 Transformer Encoder 组成,用于提取基序列的深层语义和匹配信息。

第二部分,通过生成器网络对局部配对信息进行变换,生成每个碱基配对的评分矩阵。

然后,通过对第三模块中硬约束层的修改和演化,得到邻接矩阵形式的输出。

研究人员将所有序列按照序列长度分为 128 级和 512 级,通过精心挑选得到的数据集用于预训练。在预训练模型的基础上,该团队使用微调策略针对不同族的数据集训练模型,降低了训练成本,提高了模型的预测精度。这其实就是迁移学习的过程。

通过对比实验,研究人员发现对预训练模型使用合适的损失函数可以提高训练效果。同时,使用迁移学习的方法,大大提高了 LTPConstraint 在其他缺乏足够数据的 RNA 家族中的准确性。研究人员将使用迁移学习的 LTPConstraint 模型与其他好的模型进行了比较,结果表明 LTPConstraint 在准确性和稳定性方面优于其他模型。

在保证准确性的前提下,该团队的方法也部分克服了深度学习对数据量的依赖问题。虽然 LTPConstraint 在 RNA 二级结构预测方面做得很好,但研究人员仍然认为他们的工作只是深度学习方法对预测 RNA 二级结构问题的补充。

同时,该模型还存在训练成本高、长序列数量不足导致预测精度降低等问题。在未来的工作中,该团队将优化 LTPConstraint 预测长序列的兼容性,同时减少模型使用的计算资源;还将使模型更加用户友好且更易于泛化。他们会将这种二级结构预测方法应用到生物实验中,为生物学家提供更准确的参考,为生命科学领域做出贡献。

数据集:https://github.com/jluF/LTPConstraint.git

论文链接:https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-022-04847-z

吉林大学法硕(吉林大学法硕非法学)