前沿 | 我国学者首次建立从端粒到端粒的中国人全基因组-pg电子官方
端粒到端粒(t2t)联盟组装的参考基因组t2t-chm13,是有史以来第一个具有卓越质量的完整单倍体人类基因组。但遗憾的是,基因组计划发展到现在,仍然没有中国人自己的参考基因组。
日前,北京大学人民医院高占成教授研究团队、中国科学院北京基因组研究所康禹教授研究团队在《基因组蛋白质组与生物信息学报》杂志发表研究论文,首次在世界范围内成功完成从端粒到端粒的中国人全基因组,获得包括y染色体在内的高质量真实人类二倍体、完整无间隙的全基因组参考序列(44 xy)——“唐尧”基因组,其dna序列具有明确的汉族中国人遗传特征。
据悉,样本来自一名生活在山西省一个古老村庄的健康男性,经核型检测,未见染色体结构异常。研究团队将该参考基因组命名为“t2t-yao”,因为这个采样点位于几千年前的尧帝遗址附近,这个地区是明代洪洞移民的起点。这场迁徙持续了近半个世纪,大量移民遍布中国各地并进入东南亚。因此,t2t-yao基因组有望成为汉族人群的全面代表。
根据祖源分析,yao基因组的大部分来自东亚。其y染色体单倍群鉴定为o-f2137,是中国主要的y单倍群o-m122的主要后代群之一。
研究团队使用merqury(评估基因组质量的重要工具)来评估t2t-yao,并分析其完整性、组装错误和单倍型之间的切换错误。其中t2t-yao的质量值(qv)达到了参考质量的准确度,母本与父本分别达到了q70.49和q72.28,选择父母本中qv较高的常染色体及性染色体组成一套单倍体参考基因组,其质量达到了q74.69。
研究发现,与基准基因组hg002相比,t2t-yao表现出较少的错误重复、交换错误和较短的折叠区域,且t2t-yao拥有更完整的rdna(核糖体dna)序列。与chm13相比,yao的单倍体间具有更多的序列共享性和更高的同一性。这意味着与汉族人群相比,不同族群之间存在更大的基因组距离。而不同单倍型间有10%的序列是独特的,代表了大部分个体间的基因组多样性。
研究团队还成功完成t2t-yao的所有十个saacs(近端着丝粒染色体短臂)区域,saacs的成对比对揭示了异源染色体上几乎有相同的序列存在,形成了具有大量倒位、重复和易位的同源嵌合体,特别是在chr13、14、21和22之间。对十个saacs区域的k-mer(一段长度为k的dna片段)进行聚类,他们发现同源染色体的短臂显示出几乎相同的位置,但不同异源染色体的长臂彼此远离。
研究发现,yao-y基因结构与既往报道一致,两端包含伪常染色体区(pars)、x转座区、扩增序列、异染色质卫星区和x简并区。扩增子存在于扩增区域,与chm13-y中观察到的模式相似。
该研究报告了一个完整、准确的中国汉族参考基因组t2t-yao,能应用于未来的医学研究和临床实践中,为精准医疗夯实了基础。(来源:观察者网)