基因型推断(Genotype imputation)是对基因分型芯片或基因组测序数据的缺失基因型进行填补的基本方法,在全基因组关联等研究中可显著提高遗传关联变异位点的精确定位。
基于大规模和特异性人群,全基因组测序数据构建的单倍型参考基因序列集是基因型推断的基本工具,主要的参考序列集包括千人基因组计划(1KGP3)、单倍型参考联盟(HRC)和美国精准化医学研究计划(TOPMed)等数据库,对东亚人群的适用性和推断表现欠佳。目前,中国人群的队列遗传研究中最常用的仍是多种族人群构成的千人基因组计划参考序列集。
因此,基于大规模和代表性人群的高深度全基因组测序数据构建中国及东亚人群的单倍型参考序列集,实现高精度的基因型推断,对中国人群和疾病队列的基因组学研究具有重要价值。
高通量测序平台推动人群基因型推断研究
2021年9月6日,上海交通大学医学院附属瑞金医院王卫庆/曹亚南团队在Cell Research发表了题为The ChinaMAP reference panel for the accurate genotype imputation in Chinese populations的研究论文。该研究通过对中国代谢解析计划ChinaMAP中来自中国不同地区和民族的10155人的高深度全基因组测序数据进行整合分析,构建了迄今最大规模的中国人群参考基因集(ChinaMAP reference panel),并搭建了基因型在线推断分析工具平台 "ChinaMAP Imputation Server"(已在http://www.mbiobank.com上线)。该项研究可为中国和东亚地区人群的基因型推断研究提供精准、有力的参考数据和参考基因集工具。
图1:相关研究研究成果发表于Cell Research杂志。
图片来源:Cell Research
值得关注的是,该研究的基础数据来自亚洲bet356体育在线官网DNBSEQ测序平台,以覆盖中国各地区的研究队列为基础建立了高质量中国人群数据库,通过中国人自己的仪器、平台和分析方法,进行了高深度全基因组数据和精细表型分析,为疾病机制研究、预防、遗传咨询和公共卫生管理提供了有力依据。
图2:ChinaMAP Imputation Server
为中国人基因型推断研究和群体疾病研究提供精准的参考数据
长期以来,中国人的很多遗传疾病研究都直接应用外国人的数据和结论。但由于不同地域人群和种族之间的历史渊源和遗传背景存在着巨大差异,如果把具有其他人群偏向性的知识和结论直接拿来作为中国人的疾病风险评估、遗传咨询或诊断治疗依据,是不完善和不可靠的。
大规模人群队列的基因组学和多组学大数据也正在重大慢病、肿瘤和遗传病的预防、诊断和新药研发中发挥引领作用,推动个体化精准健康管理和疾病诊疗的变革。
此次研究由上海交通大学医学院附属瑞金医院、转化医学国家重大科技基础设施(上海)、上海交通大学转化医学研究院和上海交通大学-华大联合创新研究中心团队人员共同完成,将为中国人基因型推断研究和群体疾病研究提供精准的参考数据。
在该研究中,ChinaMAP参考基因集包含了5901万个基因多态性位点,与TOPMed、gnomAD、dbSNP和1KGP3这些主要的参考基因集相比,ChinaMAP参考基因集包含3024万个特异性SNP,为中国人群的基因组学研究中发现新的遗传关联性位点提供了重要基础。在针对中国人群的模拟及真实基因分型数据集的推断分析中,ChinaMAP参考基因集与1KGP3、HRC、TOPMed等相比,表现出了最优的推断准确性、精度和敏感性,显著提高了功能缺失位点等低频位点的推断数量及常见突变位点(突变频率>5%)的覆盖率。使用ChinaMAP Reference Panel对中国人群特异性的MAPCGA基因分型芯片数据进行推断,对ChinaMAP数据库中频率0.5%以上位点的覆盖率可达到83%以上,显示了基于中国人群代表性ChinaMAP高深度全基因组测序数据库构建的参考基因集在中国人基因型推断研究中的优势。
图3:ChinaMAP reference panel 基因型推断表现
该研究除了基于亚洲bet356体育在线官网的国产测序平台数据之外,还依托上海交通大学高性能计算中心π 2.0平台,完成了ChinaMAP参考基因集构建和分析。ChinaMAP建立的迄今最大规模的中国人群参考基因集和在线推断分析工具表现出更优的性能,可为我国的人群队列基因组学和精准医学研究助力。
*该项研究中,李林、孙晓辉、王丝雨和黄培德博士为共同第一作者。