梯度下降法程序_梯度下降法和正规方程_梯度下降法原理和步骤

/蛋白质结构和功能预测 /

1 重点

2 蛋白质结构基本概念回顾:

梯度下降法和正规方程_梯度下降法原理和步骤_梯度下降法程序

(1)一级结构:蛋白质的氨基酸序列,是蛋白质功能的基础。

(2)二级结构:由氢键维持的局部结构,包括α-螺旋、β-折叠等。

(3)三级结构:二级结构进一步折叠形成的结构域,蛋白质在三维空间中的折叠形态,决定了其功能。

(4)四级结构:多个多肽链通过非共价键相互作用形成的复合结构,多个亚基之间的空间结构。

3 膜蛋白质分析

梯度下降法程序_梯度下降法和正规方程_梯度下降法原理和步骤

膜蛋白质根据其与膜的结合方式分为整合膜蛋白、锚定蛋白和外周蛋白。

整合膜蛋白通常形成跨膜α-螺旋,而锚定蛋白则通过直接与脂双分子层或用过糖分子间接与膜结合。

3.1

预测膜整合蛋白的跨膜区

1 序列分析:

疏水性分析:跨膜区域通常由疏水氨基酸组成,因此可以通过计算序列的疏水性来预测可能的跨膜区域。疏水性分析工具如 或 DAS 可以提供序列的疏水性图谱。

预测软件:使用专门的软件工具,如 TMHMM、、SOSUI 等,这些工具基于统计模型和已知的跨膜蛋白质结构信息来预测跨膜区域。

2 结构特征识别:

α-螺旋预测:跨膜区域通常形成α-螺旋结构。可以通过软件如 DAS 或 来预测序列中可能形成α-螺旋的区域。

β-折叠预测:虽然较少见,但某些膜蛋白的跨膜区域可能包含β-折叠结构。可以通过预测软件来识别这些结构。

3 同源比对:

已知结构的比对:如果存在已知结构的同源蛋白,可以通过比对这些蛋白的序列和结构来预测未知蛋白的跨膜区域。这种方法依赖于蛋白质数据库,如 PDB。

3.2

分析膜锚定蛋白的 GPI 位点

糖基磷脂酰肌醇 (GPI)

GPI 修饰发生在内质网,所以只有当蛋白含信号肽才可能被 GPI 修饰

梯度下降法和正规方程_梯度下降法程序_梯度下降法原理和步骤

1 序列特征分析:

信号肽识别:GPI 锚定蛋白在合成过程中首先会有一个信号肽引导蛋白质进入内质网。这个信号肽通常包含一个疏水区域,可以通过信号肽预测工具如 来识别。

GPI 锚定序列:在信号肽之后,通常会有一个 GPI 锚定序列,这个序列在蛋白质成熟过程中会被切割,留下 GPI 锚定结构。这个序列通常包含一个疏水区域,后面紧跟着一个高度保守的序列,如“-Ser-Xaa-Ser/Thr-”,其中 Xaa 可以是任何氨基酸。

2 GPI 位点预测工具:

使用专门的 GPI 位点预测软件,如 Big-PI、GPI-SOM、GPI- 等,这些工具基于已知的 GPI 锚定蛋白序列和结构信息,通过统计和机器学习方法来预测潜在的 GPI 锚定位点。

3 保守序列比对:

同源序列比对:通过比对已知 GPI 锚定蛋白的序列,可以发现保守的 GPI 锚定序列模式。这种方法可以帮助识别那些可能具有 GPI 锚定位点的未知蛋白

4 蛋白质翻译后修饰分析

梯度下降法程序_梯度下降法和正规方程_梯度下降法原理和步骤

蛋白质的翻译后修饰 (Post- ): 翻译后修饰是指蛋白质在翻译后经历的各种化学改变,如磷酸化、甲基化、酰化等。这些修饰可以影响蛋白质的结构和功能。

4.1

分析信号肽及其剪切位点

信号肽序列的特征

❖20-35 个氨基酸

❖富含疏水氨基酸的片段

❖至少有一个带正电荷的氨基酸

梯度下降法程序_梯度下降法和正规方程_梯度下降法原理和步骤

信号肽指引蛋白质转移的方式

(1)常规的分泌(Sec/)通路;原核生物蛋白质转移到质膜过程 中,以及真核生物蛋白质转移到内质网膜的过程中

(2)双精氨酸转移(Tat/twin-)通路。存在于细菌、古菌、叶绿体 和线粒体中

4.2

蛋白质糖基化-分析糖链连接点

糖链连接方式

❖ O-连接:丝氨酸、苏氨酸、羟赖氨酸的羟基

❖ N-连接:天门冬酰氨的酰氨基

梯度下降法程序_梯度下降法和正规方程_梯度下降法原理和步骤

糖基化预测工具和算法

(SVM)支持向量机

梯度下降法原理和步骤_梯度下降法程序_梯度下降法和正规方程

分析 O-连接糖链的连接位点

软件 分析 N-连接糖链的连接位点

其他预测工具:

5 蛋白质亚细胞定位分析

蛋白质的亚细胞定位 对于确定蛋白质在细胞内的具体位置对于理解其功能至关重要。蛋白质可以定位在细胞核、细胞质、内质网、线粒体等不同的细胞结构中。

梯度下降法原理和步骤_梯度下降法和正规方程_梯度下降法程序

分析蛋白质的亚细胞定位有助于我们了解蛋白质的功能和互作情况

预测方法包括基于氨基酸组成、同源蛋白序列比对以及整合型方法

基于氨基酸组成的方法

不同亚细胞区域的蛋白质具有不同的全局特征,如氨基酸组成。算法/软件有:,NNPSL

基于同源蛋白序列比对的方法

即利用 BLASP 等比对工具寻找亚细胞定位已知的同源蛋白。算法/软件如 。其它同源信息也可以被利用,如 ,以及保守结构域或 motif(特定亚细胞区域)、GO 信息(算法如 )

整合型方法

PSORT ( 1991 年,基于先验知识基础之上的专家系统)

PSORT(2002 年,特征识别)

(2007 年,KNN)

打开“PSORT” ( [/]() ) 网页分析蛋白质在细胞中的定位,在 PSORT 根据待分析蛋白质来源物种差异选择不同分析方法,如选择 WoLF PSORT,选择物种,粘贴序列分析结果

(2000 年,神经网络)

YLoc (2010 年,朴素贝叶斯)

(2012 年,SVM 支持向量机)

(2017 深度学习)

梯度下降法程序_梯度下降法和正规方程_梯度下降法原理和步骤

输入:eg.一条蛋白质序列 1000(aa)*20(aa)

每个位点对应的氨基酸概率数组 PSSM 矩阵

输出:(附带一个蛋白质分选信息分层树)

膜蛋白 or 可溶蛋白?亚细胞定位(10 种概率-细胞膜 溶酶体 液泡 内质网 高尔基体 细胞核 细胞质 线粒体 叶绿体 细胞外基质 过氧化物酶体)?

(1) CNN(卷积神经网络)

1000*20 的数据(n 条蛋白质序列,每条序列长度为 1000)→120 个过滤器(卷积核)→1000×120 的特征图→128 个卷积核→1000 × 128 的特征图

(2) RNN(循环神经网络)

1000 × 128 的特征图→256 个 LSTM 单元在两个方向上扫描序列(便于提取氨基酸之间的空间依赖信息,记住 N 端 or C 端)→1000×512

(3) 注意力解码层

注意力机制赋予与对预测结果很重要的序列更高的权重 ,分层树存储蛋白质分选途径信息

2.0

multi-label using

输入:蛋白质序列(one-hot 编码即可,不需要 1.0 中的 PSSM)

梯度下降法程序_梯度下降法原理和步骤_梯度下降法和正规方程

氨基酸编码方式生成输入特征

( )是一种常用的蛋白质序列相似性度量。 是其中一个常见的版本,是由一致度小于等于 62%的序列计算而来的氨基酸替换矩阵。它基于已知的蛋白质序列之间的替代模型构建,适用于比对和比较相似性。这种编码方式可以用于生成输入特征,特别是在与蛋白质结构和功能相关的任务中。

0,1 矩阵 稀疏表示通常涉及到将蛋白质序列表示为一个巨大的稀疏矩阵,其中每个氨基酸对应一个特征。这种表示方式可以保留更多原始信息,但也可能导致高维度的特征空间。在某些情况下,这可以帮助模型更好地捕捉细微的序列特征。

(PSSM)

PSSM(- )位置特异性打分矩阵,是通过对多重比对的蛋白质序列计算得到的。它提供了关于每个氨基酸在序列的特定位置的进化信息。将蛋白质的进化和保守信息包含在矩阵中。某序列中 A 氨基酸突变为 b 氨基酸的概率。PSSM 可以用于捕捉氨基酸在序列中的相对重要性,并提供一种考虑氨基酸之间关系的方式。

HSDM

HSDM( Space Data )编码是一种通过将氨基酸映射到高维空间来生成特征的方法。是基于结构的替换矩阵,使用具有高结构相似性但低序列相似性的数据集。从该数据集中导出的替换矩阵。这种编码方式旨在捕捉蛋白质序列中的非线性关系,并提高模型对序列中隐含信息的识别能力

6 蛋白质折叠问题-The -

梯度下降法程序_梯度下降法和正规方程_梯度下降法原理和步骤

•氨基酸序列决定蛋白质的天然构象的“物理密码”(-to- code)是什么?

•为什蛋白质折叠如此迅速?(微秒与毫秒来衡量)

•是否能设计计算机算法从蛋白质的序列中直接预测他们的结构?

二级结构预测基于氨基酸残基的氢键模式,常用的方法有统计方法、物理化学方法、同源比对以及机器学习与神经网络方法。

6.1 二级结构预测:

二级结构:主要是氢键维持的结构

❖ 无规则卷( coil)

❖ α-螺旋( α-helix)

❖ β-折叠(β-sheet)

❖ 转角(turn) 环(loop)

梯度下降法原理和步骤_梯度下降法和正规方程_梯度下降法程序

蛋白质的二级结构预测的基本依据是:每一段相邻的氨基酸残基具有形成一定二级结构的倾向。二级结构预测问题是模式分类问题

二级结构预测的目标:判断每一段序列中心的残基是否处于 a 螺旋、b 折叠、转角(或其它状态)之一的二级结构态。

方法

统计学方法 从有限的数据集中提取各种残基形成特定二级结构的倾向,以此作为二级结构预测的依据。

Ø•早期统计方法 基于单个氨基酸残基统计分析

Chou- 法,基本思想是在序列中寻找规则二级结构的成核位点和终止位点。

基于单个氨基酸残基统计的经验预测方法。通过统计分析,获得的每个残基出现于特定二级结构构象的倾向性因子,进而利用这些倾向性因子预测蛋白质的二级结构。

·蛋白质二级结构的组成规律性比较强·三种基本二级结构平均占氨基酸残基的 85%·各种二级结构非均匀地分布在蛋白质中·每种氨基酸出现在各种二级结构中倾向或者频率是不同的·可以根据每种氨基酸残基形成二级结构的倾向性或者统计规律进行二级结构预测

梯度下降法原理和步骤_梯度下降法和正规方程_梯度下降法程序

Ø•早期统计方法 基于氨基酸片段的统计分析

--(GOR)方法是一种基于信息论和贝叶斯统计学的方法

GOR 将蛋白质序列当作一连串的信息值来处理。GOR 方法不仅考虑被预测位置本身氨基酸残基种类的影响,而且考虑相邻残基种类对该位置构象的影响,应用 GOR 方法预测蛋白质的二级结构为螺旋、折叠或者转角的准确率大约为 65%

基于立体化学原则的物理化学方法 ,如:Lim 法

氨基酸的理化性质对二级结构影响较大,在进行结构预测时考虑氨基酸残基的物理化学性质,如疏水性、极性、侧链基团的大小等,根据残基各方面的性质及残基之间的组合预测可能形成的二级结构。

•“疏水性”是氨基酸的一种重要性质,疏水性的氨基酸倾向于远离周围水分子,将自己包埋进蛋白质的内部。通过疏水氨基酸出现的周期性预测蛋白质的二级结构

该方法还充分考虑邻近氨基酸残基之间的相互作用情况,此外,该方法还根据已经测定的蛋白质结构,总结了形成螺旋、折叠构象的结构模式和立体化学特征。(如其中的亲/疏水分布模式)

利用同源比对的进化信息

将待预测的片段与数据库中已知二级结构的片段进行相似性比较,利用打分矩阵计算出相似性得分,根据相似性得分以及数据库中的构象态梯度下降法原理和步骤,构建出待预测片段的二级结构。

该方法对数据库中同源序列的存在非常敏感,若数据库中有相似性大于 30%的序列,则预测准确率可大大上升。

更为合理的方法是将待预测二级结构的蛋白质 U 与多个同源序列进行多重比对,对于 U 的每个残基位置,其构象态由多个同源序列对应位置的构象态决定,或取出现次数最多的构象态,或对各种可能的构象态给出得分值。

神经网络与人工智能

三层处理层级的前馈多层网络:输入层 → 隐藏层 → 输出层

使用 13-17 个氨基酸的滑动窗口

每个输入通过一个加权因子进行修改,然后多个输入被送入隐藏层;隐藏层综合这些输入,并通过将输入送入模拟神经元激发的 触发函数梯度下降法原理和步骤,输出一个接近 0 或 1 的数值

隐藏单元的信号被发送到三个输出单元中的每一个(分别对应螺旋 helix、片层 sheet 或其他),再次加权,然后所有输入再次被综合;每个输出单元的最终输出是 1(预测为该特定的二级结构)或 0(不是)

利用进化信息预测蛋白质的二级结构

蛋白质序列家族中氨基酸的替换模式是高度特异的,如何利用这样的进化信息是二级结构预测的关键。

蛋白质二级结构预测软件系统 PHD

1)第一步工作是形成同源序列的多重对比排列

2)第二步工作是将得到的多重比对的统计结果送到一个神经网络中计算。

•运用长程信息和蛋白质序列的进化信息

•准确度有了比较大的提高

6.2 三级结构预测

三级结构预测方法包括同源建模、折叠识别法和从头预测法。同源建模利用已知结构的同源蛋白质进行结构预测,而从头预测法则基于蛋白质的一级结构和物理化学原理。

同源建模

同源建模法( )也称为比较建模法,是一种基于知识的蛋白质结构预测方法。根据对蛋白质结构数据库 PDB 中的蛋白质结构比较分析研究得知,任何一对蛋白质,只要它们序列的长度达到一定程度,序列相似性超过 30%,就可以保证他们具有相似的三维结构。

梯度下降法和正规方程_梯度下降法程序_梯度下降法原理和步骤

主要步骤:模版搜寻、序列比对、结构保守区寻找、目标模型搭建、结构优化和评估等

同源建模的一般步骤:

寻找一个或一组与未知蛋白质同源且由实验测定的蛋白质结构,进行结构叠合。建立未知蛋白质与已知结构蛋白质的序列比对,找出结构保守性的主链结构片段。建模结构变化的区域,一般为连接二级结构片段间的区域,侧链建模,通过能量计算的方法进行结构优化。

得到结构预测模型后还需要进行检验

?检测总体的折叠模式是否准确

?局域结构是否正确

?检查立体化学是否合理,如键长、键角的合理性,二面角是否落在允许区内,是否存在不合理的过近原子接触等

折叠识别法 fold

折叠识别法(fold )也称为反向折叠法( fold )、串线()算法等。该方法源于上世纪 90 年代,目前主要算法大多基于 1991 年 Bowie 等提出的三维剖面(3D-)和 1992 年 Jones 等提出的串线算法发展而来。

该方法基于一个事实:即很多没有序列相似性的蛋白质具有相似的折叠模式。因此可以开发序列结构比对的方法,通过目标蛋白质的氨基酸序列和已知折叠模式的逐一比对,根据特定的计分函数,找出最有可能的未知序列折叠模式。

折叠识别法主要过程:

Ø 在折叠库(即存储已知折叠方式的序列记录)搜索,获得已知蛋白质结构的相似序列;

Ø 为折叠模式打分即识别适合序列的折叠模式;

Ø 将查询序列与打分最高的蛋白质进行序列比对。一旦识别到这样一个模板,余下的部分与同源建模的过程相同

折叠识别法可以弥补同源建模法只能依赖序列相似性寻找模板的不足。

•对于进化上距离较远的蛋白,序列相似性往往较低,但它们仍可能属于同一蛋白结构家族,仍可能具有相似的结构。

•对于某些序列相似性低于 10%,仍能识别出同源蛋白,用于结构建模

折叠识别法常基于序列相似性搜索和结构信息两方面。例如:3D-PSSM 方法,利用了 PSI-BLAST 算法来发现与未知序列关系较远的序列,并用结构信息来配合这种搜索。结构信息包括二级结构预测和疏水氨基酸具有存在于蛋白质结构内核的趋向。

从头预测法 ab

从头预测 指从蛋白质的一级结构出发,根据物理化学、量子化学、量子物理的基本原理,利用各种理论方法计算蛋白质肽链所有可能构象的能量,然后从中找到能量最低的构象,作为蛋白质的天然构象。

梯度下降法原理和步骤_梯度下降法程序_梯度下降法和正规方程

从头预测法由以下几部分组成:

1)表示蛋白质几何结构的方法 如使用一个或少数几个原子代表一个氨基酸残基

2)能量函数及其参数,或者一个合理的构象得分函数,以便计算各种构象的能量。一般通过对已知结构的蛋白质进行统计分析以确定能量函数中的各个参数或者得分函数,即基于知识的函数。

3)构象空间搜索技术:对构象空间进行快速搜索,找到全局最小能量相对应的构象。常用方法有分子动力学模拟、基于蒙特卡罗模拟的构象搜索、模拟退火、遗传算法等

方法

早期的主要方法:

Ø

ØQUARK

Ø

最新的突破性方法(主要基于深度学习技术)

在第 13 届 CASP 大赛中一鸣惊人

梯度下降法程序_梯度下降法和正规方程_梯度下降法原理和步骤

•之前的方法通过分析同源序列来推测氨基酸之间是否接触,进而预测蛋白质三维结构

•本方法通过训练神经网络预测成对氨基酸之间的距离,进而预测三维结构。(另外,也考虑了连接氨基酸的化学键之间的角度),采用梯度下降算法优化蛋白质的构象势能

梯度下降法程序_梯度下降法原理和步骤_梯度下降法和正规方程

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注