ZKX's LAB

启动子预测评估的黄金标准

2020-11-23新闻14

原标题:启动子预测评估的黄金标准

生物信息学,第25卷,第12期,2009年6月15日,第i313–i320页

1导言

启动子预测程序(PPPs)旨在使用计算模型识别基因组中的启动子区域。在早期的工作中,启动子预测集中于鉴定(蛋白质编码)基因的启动子(Fickett和Hatzigeorgiou,1997),但最近已经很清楚,转录起始并不总是产生蛋白质,转录发生在整个基因组中(卡尼奇等人,2006;河口等人,2008;Sandelin等人,2007)。

一个重要的问题是不同的购买力平价实际上试图预测什么。一些程序旨在预测已知蛋白质编码基因启动子区域的确切位置,而其他程序则专注于寻找转录起始位点(TSS)。最近的研究表明,通常没有单一的转录起始区,而是一个完整的转录起始区,包含多个以不同频率使用的转录起始区(弗里斯等人,2008)。本文分析了17个项目在两个任务上的表现:(1)基因起点的全基因组鉴定和(TSRs的全基因组鉴定。

大多数公布的公私伙伴关系都使用量身定制的评估协议,该协议几乎总是宣称新的公私伙伴关系优于所有其他伙伴关系。我们的目标是提供一个客观的基准,使我们能够测试和比较购买力平价。在过去的几年里,许多论文对启动子预测软件进行了评估。最早的工作表明,许多早期的购买力平价预测了太多的假阳性(Fickett和Hatzigeorgiou,1997)。后来的全基因组审查包括一套全新的启动子预测因子,并引入了一个基于基因注释的评估方案(Bajic等人,2004)。该方案后来被用于验证编码器试点项目(Bajic)的启动子预测等人,2006)。索南堡等人(2006)提出了一种更严格的机器学习启发的验证方法,该方法使用了从数据库DBTSS(一个启动子数据库)中实验确定的启动子。最近对公私伙伴关系的大规模验证包括比任何早期研究都多的项目,并首次引入了基于人类基因组中所有实验确定的TSSs的评估(Abeel等人,2008a,2008b)。

虽然许多问题已经得到解决,但在评估启动子预测软件的性能方面,仍有大量的挑战有待讨论。一般来说,我们可以区分启动子预测的两种主要方法。第一种方法是对所有单个核苷酸进行评分,以识别胸腺嘧啶核苷或胸腺嘧啶核苷。通常,评分是通过分类算法完成的,该算法通常使用交叉验证进行验证。这种交叉验证提供了对模型性能的初步了解,并可用于优化训练集的模型参数。从这些技术中获得的分数可以用作基因组注释管道的输入,在那里它们将被聚集在基因模型中。由于它们的设计,这种类型的启动子预测因子将总是在全基因组范围内起作用。使用这种方法的项目包括艺术(索南堡等人,2006),PROSOM(Abel等人,2008b)和EP3(阿贝尔等人,2008a)。第二种方法识别启动子区域,但不提供所有核苷酸的分数。典型地,这种类型的程序将输出启动者的开始坐标和停止坐标,以及指示预测可信度的分数。在极少数情况下,仅给出一个坐标作为TSS。两个节目不设评分(吴法和PromoterExplorer)。在这种方法中,我们可以区分程序的两个子类:在基因组范围内工作的和不工作的。后者用于鉴定单个基因的启动子。在这项工作中,我们将不考虑这些程序,因为它们通常作为网站分发,因此不适合大规模分析。

PPPs可用于鉴定已知基因的启动子,也可用于鉴定任何转录事件的开始,无论转录序列的最终命运如何。对于每种应用,我们都提出了两种评估协议,可用于评估特定应用程序的性能。每个应用程序都有一个相关的参考数据集,协议将使用它来评估购买力平价。我们使用了以前用于验证启动子预测的相同类型的参考数据集(参见第2节详情)。

已经提出了几种方法来验证启动子预测。对一小组启动子和非启动子序列的交叉验证有时被用来验证一个PPP(谢等人,2006),但结果往往是高估了一个完整基因组的表现(Bajic等人,2004)。其他方法利用基因注释来评估启动子预测,其基本原理是基因的起点对应于一个启动子(Bajic等人,2004,2006)。然而,很明显,并非所有的启动子都与蛋白质编码基因相关,而且,并非所有的转录事件都始于基因的开始。在一个基因的内部外显子的开始或3’末端观察到TSSs(Carninci等人,2006)。最近,人类基因组中用于启动子研究的两大资源已被用于验证启动子预测。第一个来源是DBTSS数据库,其中包含大量实验确定的启动子(Wakaguri等人,2008)。第二个来源是使用CAGE技术对人类基因组进行全基因组筛选(Shiraki等人,2003),提供基因组中所有的TSS。后一种来源是最有价值的,因为它是对所有可能的TSS的详尽筛选。

这项工作的其余部分提出了一套协议和数据集,用于验证启动子预测软件。为了说明我们的方法,我们用建议的验证方案分析了17个购买力平价。虽然这些方法适用于任何基因组,但我们在当前的文章中关注的是人类基因组。最后,我们强调了在为特定任务选择最佳公私伙伴关系时出现的一些挑战。

2材料和方法

2.1数据集

我们使用人类基因组的hg18进行所有分析。对于验证方案,我们使用从UCSC表浏览器下载的参考序列基因。这组包括23,799个独特的基因模型,并进一步被称为基因集。我们还使用来自Carninci的CAGE标签数据集等人(2006)。后者经过预处理,将所有重叠的标签聚合成簇,得到180,413个簇,总共包含4,874,272个CAGE标签。如果一个簇包含至少两个标签,则该簇被认为是TSR。单个集群被移除,因为这些可能是转录噪声。该数据集将被称为CAGE数据集。

2.2启动子预测软件

我们使用了两个标准来选择PPPs以包括在这个分析中:(1)程序或预测应该免费提供给学术使用,和(2)程序应该能够处理完整的人类基因组或预测应该可以用于完整的基因组。至少17个程序(表1)符合这些标准,并已被纳入。每个程序的设置和预测提取方法的详细信息包含在补充材料。

表1 .

所有分析项目的概述

Overview of all the programs analyzed

2.3评估协议

在本文中,我们提出了四个协议来评估公私伙伴关系做出的预测的质量。前两个协议是基于bin的协议,灵感来自索南堡等人(2006)。后两个是基于距离的,灵感来自阿贝尔等人(2008b)。图1显示了每个协议如何确定预测性能的示意图。

图1:

不同协议如何工作的可视化表示。面板号指的是协议标识符。以1开头的协议基于宁滨,以2开头的协议基于距离。以A结尾的协议使用CAGE数据作为参考,以B结尾的协议使用基因集。更多细节可以在正文中找到。

为了解释每个协议,我们假设我们有一组预测。此外,我们有一个被认为是基本真理的参考集(基因集或CAGE集)。宁滨协议(1A和1B)更倾向于机器学习。每个箱有两个标签:一个由参考集提供,另一个由PPP提供。性能可以根据这些标签进行评估。距离协议(2A和2B)计算参考项目和最近预测之间的距离,并将使用该距离来计算性能。以A结尾的协议使用CAGE数据作为参考,而以B结尾的协议使用基因集。请注意,B协议丢弃了评估中的所有基因间预测。基因间预测被删除,因为基因集只包含已知基因,所以我们不知道哪些基因间预测与未知基因或其他类型的转录有关(Bajic等人,2004)。

2.3.1基于Bin的验证评估协议1A:

该协议使用CAGE数据集作为参考。我们把基因组分成500个nt的箱子。接下来,我们检查每个箱是否与一个TSR的中心重叠。如果是的话,我们就把这个箱子标为阳性TSR。通过这种标记,我们可以确定真阳性(TPs)、假阳性(FPs)、假阴性(FNs)和真阴性(TNs)的数量。每个既有预测标记又有总分类标签的箱都被认为是总分类标签。TN是一个既没有标记为预测也没有标记为TSR的仓。FP是标记为预测但未标记为TSR的仓。最后,FN是一个没有标记为预测的但标记为TSR的结合物。根据这些,我们用下面的公式计算精度和召回率。

1B评估方案:该方案是1A方案的变体,但它使用基因集作为参考,而不是CAGE数据集。这个协议类似于在索南堡使用的协议等人(2006)。我们将所有与基因起点重叠的区域标记为阳性基因起点区域。所有与该基因重叠但不与该基因起点重叠的仓都被标记为负基因起点仓。不与基因或基因起点重叠的面元在分析中被忽略。

TP是一种标记为预测和阳性基因起点的结合物。TN是未标记为预测的、标记为阴性基因起点的结合物。FP是标记为预测和阴性基因起点的结合物。最后,一个FN是一个没有被标记为预测和标记为阳性基因起点的结合。精确度和召回率的计算与1A协议相同。请注意,该方案忽略了不接近基因起点的基因间预测。

2.3.2基于距离的验证2A评估协议:

该协议旨在以CAGE数据集作为参考来验证预测。我们确定三个分数:(1)预测的数量(总预测);(ii)这些预测中有多少是正确的(正确预测);以及(3)预测发现了多少旅行商。如果到最近的TSR的距离小于500 nt,则预测是正确的。我们使用500 nt,因为这是与宁滨方法相同的值,并且该值在过去用于这种类型的分析(阿贝耳等人,2008a,b)。如果至少有一个预测距离TSR小于500 nt,则认为发现了TSR。CAGE数据集有180,413个总分类账。

然后,我们将召回率和精确度定义如下:

评估方案2B:这是对2A方案的修改,以检查TSR预测和基因注释之间的一致性。这种方法类似于电子政务系统项目试点项目中使用的方法等人,2006)。

我们确定三个分数:(1)预测的数量(总预测);(ii)这些预测中有多少是正确的(正确预测);和(iii)通过预测发现了多少基因(发现的基因)。所有不在基因起点附近或与基因不重叠的预测都会被丢弃。如果到基因最近起点的距离小于500 nt,则预测是正确的。如果至少有一个预测距离TSR小于500 nt,则认为发现了基因的起点。与一个基因重叠,但不在500 nt范围内的预测是错误的预测。参考集中有23,799个基因(totalGenes)。

正如在1B协议中,这种方法忽略了不接近基因起点的基因间预测。

2.4业绩计量

每个协议都定义了精确度和召回率,因为它们的定义取决于协议。不幸的是,不可能比较来自不同程序的两个精确度-召回率对,因为精确度和召回率之间存在权衡。机器学习中经常使用的一种解决方案是使用ROC曲线。我们将使用这种方法的一种变体,称为PRCs。我们不是将总磷率与计划生育率进行对比,而是将召回率与精确度进行对比。由此产生的图表具有可比性,并提供了购买力平价潜力的全面概述。因此,为了公平评估每个购买力平价的表现,我们需要计算所有可能的精度——召回对。这可以通过移动程序预测得分的阈值来实现。我们使用500个阈值,在每个购买力平价的最小和最大分数之间等距。auPRC下的面积是使用梯形方法在每个算法的所有精度-召回对上计算的。

为了用单一指标量化所有协议的购买力平价性能,我们引入了购买力平价得分,它是四个协议的平均有效载荷的调和平均值。

使用调和平均值是因为它减少了高异常值的影响,同时增加了低分数的影响。因此,它将更倾向于在所有协议上提供稳定性能的程序。

对于深入分析,我们只能在一个门槛上考虑预测。因此,最佳阈值是通过计算F-分数,即每个精度-召回对的精度和召回的调和平均值,并选择F-得分最高。

最佳阈值的确定是基于2A协议获得的查准率-召回率对。我们使用了2A协议,因为它可以被认为是最全面和正确的协议:它使用了CAGE数据集(最全面),并且它使用了TSRs和预测之间的实际重叠和距离(最正确)。

2.5发起人的类别

我们使用Carninci中描述的方法将启动子分类为所谓的形状类别等人,(2006)。单峰启动子是所有标签紧密组合在一起的启动子(大多数启动子之间没有%3E4 nt的差异)。第二类包含具有广泛分布的TSSs (BR)的启动子。为了区分大类中的不同情况,有两个额外定义的类别被称为“具有主峰的宽分布”和“具有多峰分布的启动子”。

通过以特定顺序测试每个形状类的条件来确定标签簇的形状类。第一个成功的测试指示形状类。我们首先测试SP,然后测试PB,最后测试MU。如果没有一个测试成功,启动子被赋予溴标签。如果超过50%的单个标签的开始间隔不超过4 nt,则TSR具有SP形状。PB形状定义为两个最常用位置的标签数量之比超过2的任何TSR。如果标签分布的任意两个后续5%百分位数的距离超过总长度的25%,则TSR具有多模态分布。

我们只考虑至少有100个标签的集群。当应用到我们预处理的CAGE数据集时,5570个聚类至少有100个标签。在这些簇中,944个具有尖峰,498个具有宽主峰,3188个具有多峰分布,940个不属于任何其他类别。

对转录起始因子的另一个细分是评估公私伙伴关系对罕见和常见转录起始事件的偏好。为了评估很少使用的技术支持报告和常用的技术支持报告的性能,我们创建了两个数据集。包含很少使用的标签的集合包含所有具有正好2个标签的标签,而通常使用的标签具有至少25个相关标签。这导致了14 363个普通技术支持报告和85 519个罕见技术支持报告。

3结果

3.1公私伙伴关系基准

我们将前一节中描述的四个协议应用于17个已在文献中发表的公私伙伴关系,并且我们能够获得关于人类基因组的全基因组预测,或者该软件可免费用于学术用途。我们自己在网格上运行后一种程序,需要超过30 000个CPU小时来完成人类基因组。对于15个项目,这导致了有分数的预测,而对于2个项目,我们只有没有分数的预测(吴方法和PromoterExplorer)。该分析的结果在中报告表2。

前两列提供购买力平价的指数和名称。第三列到第六列显示了每个协议的精度-召回曲线(auPRC)下的区域。第七列显示由2A协议确定的最佳阈值的预测数。第八列显示用协议2A确定的最佳阈值,下一列显示相应的F-得分。第十列给出了启动子预测因子的最终得分,作为四个方案的auPRC得分的调和平均数。超过25%的购买力平价分数以粗体显示。这些是我们用来深入分析的程序。

在早期的工作中,我们使用了F-评分以确定在多个数据集上表现最佳的购买力平价。然而,使用F-得分是唯一标准。首先,为了公平地比较程序,必须在验证集上优化程序的阈值。即使这样做是正确的,优化F-分数仅仅是通过该计划可以获得的中国的一个分数。因此F-分数不能提供任何关于正在调查的购买力平价的全部潜力的见解。对于某些应用,人们可能更感兴趣的是购买力平价在非常高精度条件下的行为,而其他研究人员可能对召回率非常高的行为感兴趣。如前所述(索南堡等人,2006),比较购买力平价最公平的方法是计算完整的中国,然后计算该曲线下的面积。图2显示了2A协议所有17个购买力平价的预测误差系数,其余协议的结果类似(数据未显示)。在中国,最靠右上方的图形表示性能更好的程序。我们看到,有三个图形占据了剧情的第一部分;这些图表对应于艺术、EP3和专业软件项目。在大约20%的精度下,艾潘妮的图形开始占据主导地位,但艺术、EP3和专业领域仍然很接近。PromoterExplorer和Wu-method没有完整的图表,因为它们不提供分数;它们由图中的一个点表示。

根据《2A议定书》进行评估时,所有公私伙伴关系的污染物排放系数。

为了能够计算曲线下的全部面积,我们增加了一个点来闭合曲线。该添加点与曲线中精度最低的点具有相同的召回率,但精度值为0。添加这一点允许为每个购买力平价(包括只有一个精度-召回对的购买力平价)计算auPRC,并且它将把不覆盖整个精度范围的程序与覆盖它的程序放在同等的位置上。艾潘妮和龙港的图表表明,这些项目的预期收益可能被低估了。然而,我们运行程序的最低门槛将在我们的系统上工作。因此,艾潘妮和龙之队似乎不允许我们在极端环境下以非常低的精度探索它们。在图的另一个极端,我们看到一些程序的图形从相对较高的回忆分数下降到0。这表明一些程序不允许我们探索极高精度的分数。

曲线下的面积在中报告表2在标有协议标识符的列中。四个协议中的每一个都为ARTS分配最高的auPRC。为了在一次测量中汇总四个协议的结果,我们计算了四个协议的平均功率因数的谐波平均值,并在的最后一列将其报告为购买力平价分数表2。该分数表明公私伙伴关系在不同任务和使用不同评估算法方面的总体表现。四个项目的购买力平价得分超过0.25:艺术、艾潘妮、EP3和专业技术学校。艺术显然表现最好,占34%,而其他三个项目紧随其后,占28%左右。对所有17个购买力平价进行了进一步分析,但我们只报告了四个最佳购买力平价的结果,因为这些是最有趣的。检测CpG岛的两种方法(CpGcluster和CpGProD)在2A协议下工作得相对较好,特别是因为它们不是设计用于预测启动子,而是用于检测CpG岛。这再次表明CpG岛是非常强的启动子检测信号,CpG岛的存在通常足以鉴定启动子。FirstEF和NScan是两种试图预测不仅仅是核心启动子的方法。FirstEF试图确定第一个外显子的结构,NScan试图构建一个完整的基因模型。这种额外的面向基因的建模明显改善了1B和2B协议下的程序的性能。在1A和2A协议中,这些项目的得分低于在1B和2B有类似表现的项目。启动子2.0和NNPP2.2的总分为%3C1%,表明这些程序不适合识别启动子。引人注目的是,自2001年以来一直存在的艾潘妮仍然是总分超过20%的仅有的四个推动者预测者之一。

3.2预测的位置分布

由于评估协议允许预测值和实际总悬浮率之间存在一定的距离,因此应始终检查预测值在目标位置周围的定位情况。在这一节中,我们分析了四个表现最好的节目的位置特异性。对于位置特异性,我们使用由2A协议确定的最佳阈值。图3显示了预测相对于最接近的总悬浮率的位置分布。请注意,所有与预测重叠的总支持向量机都有距离0,这解释了图中位置0处的峰值。这x-轴代表到TSR的距离。这y-轴显示标签数量(对数刻度)。我们可以看到,到目前为止,所有程序都有最大比例的标签与预测重叠。ARTS和艾潘妮比EP3和ProSOM做出了更多与TSR不重叠的预测,但这些预测大多在TSR附近。从技术支持报告来看,这四个项目之间差别不大。总的来说,所有四个项目都有很好的本地化预测。

TSr周围预测的位置特异性。位置特异性是通过使用用2A方案确定的最佳阈值来确定的。

3.3发起人的类别

为了分析特定形状类别的启动子预测因子的偏差,我们分析了每个类别的每个程序获得的回忆。我们使用由2A协议确定的最佳阈值。对于这个阈值,我们确定所发现的形状类的标签数量。对于这些分析,只有召回信息。方法的精度只能在完整的参考集上计算,对于此分析,我们仅使用参考的子集。

表3显示了在最佳阈值处识别的每个类别的总支持比率的比例。表中的分数是由程序恢复的标记为SP、PB、MU或BR的标签的分数。公私伙伴关系比任何大类(溴、铅和多金属氧化物)回收的单峰值技术支助费用要少。已知TATA基序在SP类中过度表达,这些启动子通常与组织特异性基因相关,而BR、PB和MU类与CpG岛强烈相关,通常在看家基因中发现(Carninci等人,2006)。这表明目前最先进的启动子预测偏向于含有CpG岛的看家基因。

表3 .

在四个推广类别中的每一个上,以及在稀有和常见技术支持报告集上,前四个公私伙伴关系中的每一个的回忆得分

最后一项分析的一个警告是,尽管我们对不同的促甲状腺激素受体形状进行了区分,但我们仍然观察到至少有100个相关标签的促甲状腺激素受体,这意味着这些促甲状腺激素受体具有高的起始率。为了比较四个公私伙伴关系在不太常见的技术支持报告上的表现,我们使用了很少使用和常用的技术支持报告集(见第2节)。这两个集合的已识别技术支持报告的比例显示在的最后两列中表3。所有四个公私伙伴关系都强烈倾向于强技术支持报告,涵盖了许多标签。

3.4成对预测重叠

为了计算不同程序做出的预测之间的重叠,我们将基因组分成500 nt的块。每个节目的预测被确定为得分高于由协议2A确定的最佳阈值的预测区域。表4显示了两个购买力平价之间共享的预测比例。在此表中,我们仅包括在中提供的基准分析中获得0.25以上购买力平价分数的四个购买力平价表2。列标题为A,行标题为B的单元格中的值应被解释为包含在程序B的预测中的程序A的预测的分数。例如,第2行第1列中的值是也由EP3预测的ARTS的预测的分数。在这种情况下,36%的艺术预测也是由EP3预测的。

表4 .

从这张表中可以得出一些有趣的观察结果。标有艾潘妮的行和列表示所有其他程序所做的大多数预测都包含在艾潘妮预测集中。所有其他行表明,其他程序通常至少有25%的唯一预测。这最后一个观察可能表明,这两个程序没有预测到的预测更有可能是错误的。对这一现象的另一个可能的解释是,由于大多数购买力平价在表4是建立在完全不同的概念上的,它们利用了序列中可用信息的不同部分。利用这种洞察力的一种方法是聚合多个购买力平价,以使用序列中更多可用的信息。

4讨论和结论

在本文中,我们提出了一套协议来公平地评估公私伙伴关系。当有不同类型的数据可用时,可以使用我们描述的四种协议。对于A协议,人们需要一套实验确定的技术支持反应,这并不适用于所有物种。当目标生物只有基因注释时,可以使用B协议,这应该是大多数物种的情况。因为A协议使用了更受生物学启发的验证,并且它们没有忽略基因间预测,所以人们应该更喜欢两个A协议中的一个。从2开始的协议更准确,因为它们使用预测和参考项目的实际空间组织,而从1开始的协议将这种组织减少到固定的箱。基准应通过计算完整的PRC和该曲线下的面积来完成。当运行更多协议时,可以计算单个自动功率因数校正的谐波平均值作为购买力平价的单一分数。

我们使用提议的模式对17个公私伙伴关系进行了基准测试,并进一步研究了在位置偏好和预测偏差方面表现最佳的四个公私伙伴关系。而前四名的表现差不多(表2),这四个程序的工作原理不同,设计的任务也不同。ARTS被设计为对基因组中的所有核苷酸进行评分,EP3和ProSOM被设计为对假定的TSR进行评分,艾潘妮被设计为预测核心启动子区域。这四个项目的区别之一是他们为获得分数所做的预测数量。EP3和普罗索姆有大约65 000个预测,而艺术和艾潘妮分别有432 117和1 320 964个预测。虽然预测数相差这么大,但最终结果还是差不多的,说明很多预测都是多余的。在ARTS的情况下,这是意料之中的,因为该计划旨在对基因组中的所有核苷酸进行评分。对艾潘妮来说,大量的预测是意想不到的,因为该计划旨在确定完整的核心推动者。可以对预测的性质和冗余的程度进行进一步的调查。虽然我们的基准确定了获得最高购买力平价分数的购买力平价,但还有其他因素影响哪些购买力平价可以或应该使用。第一个附加标准是可用性。艾潘妮,EP3,专业软件和艺术是免费下载的。第二个附加标准可以是软件的应用领域。艾潘妮和ProSOM被设计成适用于任何哺乳动物基因组,EP3被设计成真核生物基因组的通用预测器,ARTS只被报道适用于人类基因组。

由四个程序做出的预测集之间的重叠是有限的(表4)。因此,每个程序都有许多独特的预测,表明每个程序都有不同的信息使用。研究如何聚集多个程序的信息是值得的。

总之,本文提出了一个评价启动子预测软件的标准,并确定了四个高评分的公私伙伴关系。对于这四个公私伙伴关系,我们对预测性能、启动子类别特异性、预测因子之间的重叠和预测的位置偏差进行了深入分析。

作为启动子预测的未来工作,仍然存在一些挑战。主要工作已经在许多模式生物中完成,但是还有许多其他高等真核生物基因组需要启动子鉴定。在评估预测时,我们重点关注预测与肿瘤干细胞或基因启动之间的联系。然而,有更多的数据被证明是有用的评估数据,例如启动子基序、DNA过敏位点和染色质结构特征。在不久的将来,启动子预测技术的重要性只会增加,因为越来越多的基因组被测序,需要越来越精确的计算技术来从这些海量的数据中提取知识。

承认

我们要感谢Gunnar Raetsch、Soeren Sonnenburg、Alexander Zien和Uwe Ohler对启动子预测评估挑战的早期讨论。

提供资金:佛兰德科技创新促进研究所(IWT-弗拉安德伦)(转到助教)。弗兰德斯研究基金会(FWO-弗兰德伦)博士后资助(给纽约州立大学)。

利益冲突:无声明。

参考

Abeel T,等。利用基因结构特征预测真核生物核心启动子,基因组研究,2008,vol .18(pg。310-323)谷歌学者交叉引用PubMed

Abeel T,等。基于DNA物理图谱无监督聚类的核心启动子预测,生物信息学,2008,vol .24(pg。i24-i31)谷歌学者交叉引用PubMed

Bajic VB,唐突 V。脊椎动物RNA聚合酶ⅱ启动子的计算检测,方法酶法。,2003,vol .370(pg。237-250)谷歌学者PubMed

Bajic VB,等。龙启动子发现者:脊椎动物RNA聚合酶ⅱ启动子的识别,生物信息学,2002,vol .18(pg。198-199)谷歌学者交叉引用PubMed

Bajic VB,等。人类全基因组启动子预测分析,纳特。Biotechnol。,2004,vol .22(pg。1467-1473)谷歌学者交叉引用PubMed

Bajic VB,等。在EGASP实验中对编码区启动子预测的性能评估,基因组Biol。,2006,vol .七 Suppl 1(pg。S3.1-S3.13)谷歌学者交叉引用

Carninci P,等。哺乳动物启动子结构和进化的全基因组分析,纳特。杰特。,2006,vol .38(pg。626-635)谷歌学者交叉引用PubMed

Davuluri 房车,等。人类基因组中启动子和第一外显子的计算机识别,纳特。杰特。,2001,vol .29(pg。412-417)谷歌学者交叉引用PubMed

向下 谢谢,哈伯德 TJP。哺乳动物基因组中转录起始位点的计算检测和定位,基因组研究,2002,vol .12(pg。458-461)谷歌学者交叉引用PubMed

菲克特 JW,Hatzigeorgiou 农业的。真核启动子识别,基因组研究,1997,vol .七(pg。861-878)谷歌学者交叉引用PubMed

河口 喊麦,等。哺乳动物基因组中转录起始的编码,基因组研究,2008,vol .18(pg。一-12)谷歌学者交叉引用PubMed

总额 SS,黑雁 先生。利用多重比对提高基因预测,J.电脑。Biol。,2006,vol .13(pg。379-393)谷歌学者交叉引用PubMed

哈肯伯格 M,等。一种基于距离的CpG岛检测算法,生物信息学,2006,vol .七pg。446 谷歌学者交叉引用PubMed

克努特森 S。启动子2.0:用于识别PolII启动子序列,生物信息学,1999,vol .15(pg。356-361)谷歌学者交叉引用PubMed

Ohler U,等。真核生物启动子区的随机片段模型,Pac。Symp。生物复合。,2000,vol .一(pg。380-391)

谷歌学者

Ponger L,Mouchiroud D。CpGProD:鉴定大型哺乳动物基因组序列中与转录起始位点相关的CpG岛,生物信息学,2002,vol .18(pg。631-633)谷歌学者交叉引用PubMed

Prestridge DS。利用转录因子结合位点预测Pol启动子序列,J.Mol。Biol。,1995,vol .249(pg。923-932)谷歌学者交叉引用PubMed

里斯 毫克。延时神经网络在果蝇基因组启动子注释中的应用,电脑。化学。,2001,vol .26(pg。51-56)谷歌学者交叉引用PubMed

Sandelin A,等。哺乳动物RNA聚合酶ⅱ核心启动子:来自全基因组研究的见解,纳特。热奈特牧师。,2007,vol .8(pg。424-436)谷歌学者交叉引用PubMed

Shiraki T,等。Cap分析基因表达,用于转录起点的高通量分析和启动子使用的鉴定,继续。Natl Acad。Sci。美国,2003,vol .100(pg。15776-15781)谷歌学者交叉引用

索南堡 S,等。艺术:转录的准确识别始于人类,生物信息学,2006,vol .22(pg。e472-e480)谷歌学者交叉引用PubMed

Wakaguri H,等。Dbtss:转录起始位点数据库,2008年进展报告,核酸研究,2008,vol .36(pg。D97-D101)谷歌学者交叉引用PubMed

王 J,Hannenhalli S。哺乳动物启动子模型将顺式元件连接到遗传网络,生物化学。生物物理学。Res. Commun .,2006,vol .347(pg。166-177)谷歌学者交叉引用PubMed

吴 S,等。基于相对熵和位置信息的真核生物启动子预测,物理版本统计。非林。软物质物理学,2007,vol .75pg。041908 谷歌学者交叉引用PubMed

谢 X,等。启动子探索:一种基于AdaBoost算法的有效启动子识别方法,生物信息学,2006,vol .22(pg。2722-2728)谷歌学者交叉引用PubMed

#技术编程

随机阅读

qrcode
访问手机版