针对大规模全基因组测序数据寻找与常见疾病有关的罕见遗传变异的检验方法

2020-09-03新闻13

2020年8月24日，《自然-遗传学》（Nature Genetics）在线发表了哈佛大学林希虹教授团队的最新研究成果。

研究团队提出了一个针对大规模全基因组测序数据的罕见变异检验方法STAAR（variant-Set Test for Association using Annotation infoRmation）。

该方法有效地引入并整合了多组学功能注释数据，有助于快速，有效，高通量地分析全基因组测序数据来发现疾病与罕见变异之间的关联性，并可以广泛地应用于分析多种类型的表型数据，加快精准预防，精准医疗和寻找新的药物标靶的研究。

文章分析了3万人的全基因组测序数据，发现了可能和胆固醇和脂酰甘油的有关联的新的罕见遗传变异位点。

哈佛大学教授、美国国家医学院林希虹院士为该论文的通讯作者，博士研究生厉希豪与博士后李子林为该论文共同第一作者。

其他参与成员研究员周胡峰、博士后Sheila Gaynor，西南财经大学教授刘耀午，美国德州大学休斯敦健康科学中心助理教授陈汉，美国德州大学MD Anderson癌症研究中心助理教授Ryan Sun，也参与了该论文的部分工作，还有美国国家心肺血液研究所（National Heart Lung and Blood Institute(NHLBI)）的精准化医学研究计划（Trans-Omics Precision Medicine (TOPMed) Program）的许多成员。

在过去十几年中，全基因组关联研究（genome-wide association studies，GWAS）广泛用于解析复杂疾病与数量性状的遗传结构。GWAS 采用阵列技术在全基因组中对数百万个位点进行基因分型，旨在找出与表型和疾病有关的基因或遗传位点。

迄今为止，GWAS 已成功识别出数千种与疾病相关的常见变异.但是这些常见变异只能解释疾病遗传率中很小的比例，许多缺乏重要的已知生物功能。这对将这些发现用于临床和新药研发造成困难。

人类基因组中绝大部分的变异为罕见变异，而GWAS的一个局限性是只能对常见变异进行基因分型。

近年来，随着全基因组测序成本大幅下降，越来越多的大规模全基因组和全外显子组测序研究（whole genome sequencing/whole exome sequencing（WGS/WES））正在快速进展，以发现人类疾病和表型的遗传构架，导致疾病的遗传变异位点，和新的药物标靶。

例如美国国家心肺血液研究所（NHLBI）的15万人的精准化医学研究计划（TOPMed），美国国家人类基因组研究所（National Human Genome Research Institute）的35万的基因组测序计划（Genome Sequencing Program （GSP）），以及许多生物样本库(biobanks)，例如50万人的英国生物样本库（UK Biobank）。

这些研究使得罕见变异与表型和常见疾病间的关联分析变得可能，且有助于加快精准预防，精准医疗的研究，和新的药物标靶的发现。

多组学（multi-omics）中的功能注释（functional annotation）提供了基因变异的生物学信息，有助于更有效地发现与疾病相关的罕见变异。

林希虹教授团队创造性地在罕见变异检验中引入了多组学中的功能注释信息，开发了基于多组学功能注释数据的罕见变异检验方法STAAR，显着地提高了罕见变异与表型和常见疾病关联性检验的统计分析功效。

研究人员将STAAR方法应用于TOPMed全基因组测序数据中，分析了3万人的四种脂类，包括胆固醇和脂酰甘油，新发现并验证了与低密度脂蛋白胆固醇（low-density lipoprotein cholesterol）相关的罕见遗传位点，包括位于第7号染色体上基因NPC1L1中的罕见破坏性错义突变（disruptive missense）和位于第19号染色体上基因APOC1P1下游附近基因区域中的罕见变异。

STAAR方法为大规模全基因组和全外显子组测序数据的罕见变异分析提供了快速，有效，准确，高通量的分析工具，适用于大规模全基因组测序数据与疾病和表型关联性和大型生物样本库的数据分析，加快精准健康的研究和新的药物标靶的发现。

阅读全文

针对大规模全基因组测序数据寻找与常见疾病有关的罕见遗传变异的检验方法

随机阅读