为什么真核基因组含有大量重复序列 真核生物的基因组一般比较庞大,例如人的单倍体基因组由3×106 bp碱基组成,按1000个碱基编码一种蛋白质计,理论上可有300万个基因。但实际上,人细胞中所含基因总数大概会。
植物基因组有大量的重复序列,重复序列正确识别和组装需要开发特殊的计算机软件。我国科学家成功研 正确答案:B
怎样检查基因组注释结果的可靠性 基因组注释主要包括四个研究方向:重复序列的识别;非编码RNA的预测;基因结构预测和基因功能注释。我们将分别对这四个领域进行阐述。1:重复序列的识别。重复序列的研究背景和意义:重复序列可分为串联重复序列(Tendam repeat)和散在重复序列(Interpersed repeat)两大类。其中串联重复序列包括有微卫星序列,小卫星序列等等;散在重复序列又称转座子元件,包括以DNA-DNA方式转座的DNA转座子和反转录转座子(retrotransposon)。常见的反转录转座子类别有LTR,LINE和SINE等。重复序列识别的发展现状:目前,识别重复序列和转座子的方法为序列比对和从头预测两类。序列比对方法一般采用Repeatmasker软件,识别与已知重复序列相似的序列,并对其进行分类。常用Repbase重复序列数据库。从头预测方法则是利用重复序列或转座子自身的序列或结构特征构建从头预测算法或软件对序列进行识别。从头预测方法的优点在于能够根据转座子元件自身的结构特征进行预测,不依赖于已有的转座子数据库,能够发现未知的转座子元件。常见的从头预测方法有Recon,Piler,Repeatscout,LTR-finder,ReAS等等。重复序列识别的研究内容:获得组装好的基因组序列后,我们首先预测基因组中的重复。