爱游戏徐涛/何顺民团队发布中国人群可移动元件插入变异图谱—新闻—科学网

时间:2024-04-21 19:26:42 已阅读:77次

可挪动元件(也被称为转座子或者转座元件)约占人类基因组的一半。于人类基因组中,Alu、LINE-1(L1)、SINE-VNTR-Alu(SVA)和HERV-K等是遍及以为仍旧活跃的可挪动元件家族,它们可以或许经由过程转座作用于基因组上造成新的插入,这类征象被称为可挪动元件插入(Mobile Element Insertion,MEI)。转座事务有可能会打断基因组上的功效区域,粉碎一般的基因功效,影响转录本的表达或者剪接,进而致使疾病。今朝已经有跨越120种人类遗传疾病被报导与转座子介导的插入相干,包孕血友病、丹特病、神经纤维瘤病以及癌症等。除了了经由过程插入事务孕育发生影响外,可挪动元件的内涵序列特征付与了一些MEI对于宿主的功效影响,使患上MEI与其他典型的布局变异有了质的区分。同时,MEI整合位点的偏好性始终以来也是研究者存眷的重点。这些位点的漫衍其实不匀称,遭到如DNA序列以及染色质情况等各类要素的影响。

只管MEI具备主要的功效,可是针对于人类基因组中多态性转座元件的整合资源却十分缺少,而这类资源偏偏是表型与变异联系关系阐发的根蒂根基。2017年,千人基因组规划对于2504个基因组中的MEI举行了周全阐发,鉴定了跨越20000个多态性的MEI位点。Watkins等人哄骗来自Simons Genome Diversity Project的296个基因组数据阐发了MEI于全世界人群中的变异特性,扩大了基在千人基因组数据集的发明。然而,这些MEI的遗传资源重要来自欧洲人����Ϸapp群。纵然于今朝最年夜的布局变异研究行列步队gnomAD-SV中,也只要1304个样原来自东亚地域。因为中国汉族是东亚以致世界规模内子口至多的族群,针对于中国人群的MEI研究以及资源都是十分匮乏的。

为此,中国科学院生物物理研究所徐涛院士团队以及何顺平易近研究员团队互助,在2022年02月25日于国际学术期刊《Nucleic Acids Research》于线揭晓了题为 Characterizing Mobile Element Insertions in 5,675 genomes 的文章(图1),先容了该团队关在MEI的最新事情。本研究于人群程度对于MEI的基因组漫衍、突变特性、功效影响等举行了体系阐发,构建了一个周全的MEI资源库,尤为是针对于中国人群的MEI图谱。该事情是中国科学院生物物理研究所徐涛院士、何顺平易近研究员牵头的 女娲 (NyuWa) 中国人群基因组规划的一部门。 女娲 中国人群基因组规划前期已经经发布了中国人群遗传变异图谱以及参考面板,和中国人群基因组资源库(http://bigdata.ibp.ac.cn/NyuWa/),为中国人群的遗传学与医学研究奠基根蒂根基。

图1. 文章揭晓在Nucleic Acids Research

作者联合来自 女娲 基因组资源的2998个高深度全基因组测序数据以及来自千人基因组规划的2677个低深度全基因组测序数据对于MEI举行了体系性地鉴定。颠末位点品质过滤,共保留了36699个非参考MEI(non-reference MEI),此中包孕26553个Alu,7353个L1,2667个SVA以及126个HERV-K。平均每一个个别均可以检测到跨越1000个MEI变异,此中绝年夜大都都是Alu元件的插入。

图2. 本研究中鉴定MEI数量

作者使用鉴定的MEI数据阐发了MEI的染色体漫衍,发明L1插入于着丝粒四周区域有着较着的富集。着丝粒DNA四周L1插入变异的富集多是因为着丝粒四周较多的 卫星序列酿成的,相对于较低的GC含量更有益在L1的插入。另外一方面,思量到以往研究发明的新着丝粒区域活跃的转座子可能有助在着丝粒的新生,作者以为L1于着丝粒区域的富集也可能存于主要的生物学意思。这一发明有待在后续的研究去探明。

图3. MEI于染色体上的漫衍

接着,作者别离对于两套数据( 女娲 以及千人基因组)中MEI的突变率(per bp per generation)举行预计, 女娲 数据为 1.609 x 10-11,千人基因组数据为 1.464 x 10-11--两者成果很是靠近,约莫每一16-17个新生儿中会孕育发生1个新的MEI事务。此外,经由过程比力差别人群中MEI的多样性以及SNP的杂合度,作者发明两者体现出很高的相干性,此中非洲人群有着最高的MEI多样性以及SNP杂合度(图 4)。

图4. SNP杂合度与MEI多样性的相干性

理论上,卵白质编码区的MEI可以经由过程打断开放浏览框而致使基因功效损失。作者于对于MEI举行了功效解释后,发明每一个人平均含有24个会截断卵白质的MEI(图5)。联合短变异(SNP以及InDel)与其他布局变异来看,MEI孝敬了每一个个别中约莫9.4%的卵白质截断变异。这一成果注解了于全基因组数据的通例阐发中纳入MEI的主要性。

图5. 每一个基因组中MEI致使的卵白质截断变异数目

L1的插入凡是陪同着3转导,即把其本来3结尾下流的序列一路插入到新位点中。按照这一特性,作者对于L1的source-offspring瓜葛举行了阐发,鉴定了一些新的source-offspring瓜葛对于,找到了一些潜于活跃的L1位点,并发明了其于差别人群中漫衍的差异(图6)。

图 6.L1 3转导

末了,为了利便可挪动元件研究职员查询以及使用,作者构建了一个开放数据库HMEID来收录本研究中鉴定的MEI,其地址为:http://bigdata.ibp.ac.cn/HMEID/。此外,本数据库也是 女娲 基因组数据资源的一部门(http://bigdata.ibp.ac.cn/NyuWa_variants/)。

综上所述,作者报导了一个构建在5675个基因组的36699个非参考MEI的综合图谱,包孕2998个中国样本(~26.2X,NyuWa)以及2677个来自千人基因组规划的样本(~7.4X,1KGP)。发明L1的插入于着丝粒区域高度富集,这象征着染色体情况于转座元件插入中的可能作用。颠末功效解释,作者预计MEI孝敬了每一个人卵白质截断事务的9.3%。末了,作者成立了一个名为HMEID的配套数据库供公家使用。这一资源代表了今朝关在MEI的最新以及最年夜的全基因组研究,指望它将于摸索人类MEI的新常识中阐扬作用。

中国科学院生物物理研究所的何顺平易近研究员、徐涛院士为该论文配合通信作者,中国科学院年夜学生命科学学院的玻士研究生牛仪伟、中国科学院生物物理研究所的玻士研究生滕学奕、中国科学院生物物理研究所的副研究员周红红玻士为该文并列第一作者。本研究获得了中国科学院战略性先导科技专项、国度天然科学基金、国度重点研发规划、中国科学院信息化专项、国度基因组科学数据中央的撑持。

文章链接:https://doi.org/10.1093/nar/gkac128

出格声明:本文转载仅仅是出在流传信息的需要,其实不象征着代表本消息网不雅点或者证明其内容的真实性;如其他媒体、消息网或者小我私家从本消息网转载使用,须保留本消息网注明的 来历 ,并自大版权等法令义务;作者假如不但愿被转载或者者接洽转载稿费等事宜,请与咱们联系。/爱游戏