视觉中国供图
这是基因测序技术的一小步,却有可能是人类基因工程学发展的一大步。
近日,美国国立卫生研究院(NIH)人类基因组研究所(NHGRI)的研究人员宣布,终于获得了人类X染色体的完整、无间隙、端对端的序列信息。
这一突破性发现公布在《自然》杂志上,这表明有可能生成一个人类染色体的精确碱基序列,产生人类基因组的完整序列。NHGRI主任、医学博士埃里克·格林说:“这项成就开启了基因组学研究的新纪元。”
耗资30亿美元、于1990年启动的人类基因组计划,经过十年努力,在2000年绘制出首个人类基因组工作草图。这是有史以来最准确、最完整的脊椎动物基因组序列。
但是,承载人类遗传密码的“密卷”并未被百分之百地破译,仍然存在大量未知的缺口。这些缺口为什么迟迟不能补上?这次帮助科学家获得X染色体完整序列的是什么基因测序技术?剩余的基因序列空白,能够顺利补上吗?
给人类基因组测序就像在拼图
如果你家里有小朋友,或者你就是一个拼图爱好者,挑战更多片数、更大画幅的拼图一定是你追逐的目标。
但是,你想过吗,有一群不同国别的科学家也在挑战一幅巨大的拼图,而这幅“拼图”可能包含的碎片高达数十亿片。这幅巨大的“拼图”实际上就是全球许多机构和科学家多年来一直在努力完成的作品,也就是人类基因组图谱。
DNA(脱氧核糖核酸)片段储存着生命的种族、血型及孕育、生长、凋亡等过程的全部信息。生物体的生、长、衰、病、老、死等一切生命现象都与DNA有关。
人类基因组非常长,包含约30亿个碱基对。通过定位这些碱基对在DNA链上的准确位置,进而识别分析出各种基因及其功能,将使人类最终征服癌症、心脏病、阿尔茨海默症等多种顽疾。
需要说明的是,人类基因组并非对某一个人进行测序研究。人类的基因大体相似,无论你是男是女,黄皮肤还是蓝眼睛。但是,每个人都有自己的基因组“副本”,而且每个“副本”都略有不同。
因此,在基因组研究中,通常会采用“参考基因组”的概念。参考基因组是一个由科学家组装的核酸序列数据库,作为物种的一个基因组参考模版。
基因组参考联盟(GRC)负责对参考基因组进行不定期更新。但目前参考基因组仍然不完整,其中的DNA序列存在许多缺口等待着填补。
“由于人类基因组太长了,目前任何测序技术都无法一次性读取所有的序列信息。因此,科学家只能把基因组打碎成一个个小片段进行测序,最后再组装起来。”南京医科大学生物信息学系主任汪强虎教授说,在外人看来,这些科学家所做的工作就像是在“拼图”。
在这幅“拼图”中,有许多重复的序列。由于测序技术只能完成短片段读取,重复序列就会导致许多看起来几乎完全相同的短片段出现。“这就好比拼图中的蓝天、草原,其中的每一小块都是蓝色或绿色,但又没有线索告诉我们这些片段如何拼接在一起。”汪强虎说,这就带来了许多缺口。
首先攻下的为何是特殊的X染色体
众所周知,人的细胞中有一个细胞核,细胞核的遗传物质在23对染色体上,其中有一对是性染色体。如果是女性,这对性染色体就是XX,但如果是男性,就是XY。而每个人的性染色体一半来自父亲一半来自母亲。
“科学家选择X染色体进行补缺测序是有原因的。”汪强虎说,X染色体在23对染色体中长度中等,但是又包含许多遗传信息,一旦能将X染色体完整测序,也将为今后其他染色体的完整测序提供参考。
“这并非说Y染色体就不重要。”汪强虎说,Y染色体有27个特别的编码基因,是X染色体没有的,从这点看,男孩要比女孩多27个来自爸爸的编码基因。
今年2月告破的28年前南京医科大学女学生遇害案件,就是依靠Y-STR家系排查技术,先通过Y染色体分析找到家族,再通过采集嫌疑人家族中11名男性口腔拭子并进行DAN比对,确认罪犯。
“Y染色体为男性特有,只能来自于父亲的遗传,有点类似古人说的‘一脉相承’。”汪强虎告诉记者,就是爷爷传给父亲,父亲传给儿子。因此,一个家族里只要对一位男性的Y染色体进行了检测,也就基本知道这个家族里其他男性的Y染色体什么样。
女性会继承两条X染色体,一条来自母亲,一条来自父亲。但是,这两条X染色体并不相同,它们的DNA序列包含许多差异。
在这项研究中,研究人员没有对人类正常细胞的X染色体进行测序。而是选用了一种特殊的雌性细胞——具有两条来源相同的X染色体。与仅具有X染色体单拷贝的雄性细胞相比,这种细胞可提供更多的DNA进行测序。它还可以避免分析典型雌性细胞的两个X染色体时遇到的序列差异。
纳米孔技术是X染色体测序最大功臣
与20年前获得的人类基因组草图相比,这次科学家将X染色体完整测序,最大功臣就是纳米孔测序技术。
“这是一种第三代测序技术。”据汪强虎介绍,1996年美国哈佛大学的丹尼尔·布兰顿、加州大学的大卫·迪默及其同事,在美国《国家科学院院刊》杂志上首次发表文章指出,可以用膜通道检测多核酸序列,成为纳米孔测序技术的起源。
此次研究使用的是一种特殊的纳米孔测序仪,它通过检测单个DNA分子通过膜上的小孔(纳米孔)时电流的变化,对DNA进行测序。
“纳米孔测序技术可以获得包含数十万个碱基对的‘超长读取’,这样的长度可以跨越整个重复区域,从而绕过了一些复杂的挑战。”汪强虎告诉记者,第一代基因测序技术一次只能读取几百个碱基对,近二十年来测序技术取得长足进步,让那些曾经被认为十分棘手的重复序列测序,变得相对容易。
“这一成果无疑是个里程碑。”汪强虎表示,通过分析X染色体的基因信息,科学家或将很快攻克一些复杂疑难疾病。
比如X染色体上有著名的基因F8(凝血因子8)和F9(凝血因子9),凝血因子8和9缺乏会导致血友病。
因为男性只有一条X染色体,一旦出现问题,就无法正常产生凝血因子8和9。这也是为何血友病通常发生在男性身上的原因:女性带有两条X染色体,如果有一条染色体出现问题,而另一条正常,通常不会出现血友病的病症,但是会遗传给下一代。
汪强虎认为,新的人类基因组序列填补了目前人类参考基因组中的许多缺口,为基因组研究开辟了新的领域。但潜在的挑战依然存在,比如,1号染色体和9号染色体的重复DNA片段比X染色体上的要长得多。科学家接下来计划继续努力弥合更多未知的缺口区域。
与此同时,针对中国人的多个基因组计划也在实施之中,汪强虎介绍说:“目前人类参考基因组是以欧美人群为蓝本,但是欧美人群与中国人的基因还存在细微差别。例如中国工程院院士、南京医科大学沈洪兵教授课题组通过全基因组关联研究,找到与中国人肺癌有关的19个易感基因,作为中国人群肺癌多基因遗传风险评估指标,可实现前瞻性预防。”