2025年5月14日,中国科学院昆明动物研究所联合东南亚多国科研机构在国际顶级期刊Nature发表题为"Genome diversity and signatures of natural selection in mainland Southeast Asia"的研究论文。这项研究首次系统揭示东南亚大陆人群复杂的遗传结构及其演化历史,填补了全球人类基因组学研究的重要空白。研究团队历时十年,联合34家国内外科研机构共同完成"东南亚人群基因组计划"一期工作,成功绘制出该区域迄今最完整的人类遗传图谱。诺禾致源为该研究提供PacBioHiFi测序服务。
论文通讯作者、中国科学院昆明动物研究所宿兵研究员指出,东南亚地区因其独特的"地理十字路口"位置和极高的人群遗传多样性,长期被视为解析人类演化历史的关键区域。研究证实该地区不仅是现代人走出非洲后向亚太扩散的重要枢纽,更保留了尼安德特人等古人类基因交流的独特印记,堪称人类遗传多样性研究的"最后一块拼图"。
中国科学院昆明动物研究所和耀喜研究员、张晓明研究员、彭旻晟研究员、李玉春副研究员、博士研究生刘凯为该文章的共同第一作者,中国科学院昆明动物研究所宿兵研究员、张亚平研究员、孔庆鹏研究员为该文章的共同通讯作者。复旦大学、北京基因组研究所、西安交通大学、上海交通大学、中国科学院数学与系统科学研究院、云南民族大学,以及多个东南亚国家高校和研究机构等参与了该研究。
研究背景
东南亚大陆(MSEA)地处南亚、东亚与东南亚岛屿的交汇地带。其丰富的民族、文化和语言多样性表明,现代人类在此区域的定居历史极为悠久。因此,尽管全球已投入大量努力解析人群基因组变异,MSEA人群的代表性仍显不足,尤其是那些与周边主体民族存在显著差异的土著人群——他们独特的生活方式和文化特征使其成为研究中不可忽视的群体。尽管全球已公布的WGS数据覆盖超67万人,但仅有1.57%来自东南亚,而其中属于MSEA土著的样本仅163例(占全球WGS样本总量的0.02%)。值得注意的是,东南亚是全球土著人口最多的区域之一,全球4.7亿土著居民中约有1.5亿生活于此。
该研究发布了由东南亚与西南中国人类学研究联盟(CASEAC)主导的SEA3K基因组数据集(第一阶段),包含对30个MSEA人群的3,023名个体的短读长全基因组测序数据,以及37名代表性个体的长读长全基因组测序数据。研究人员系统解析了MSEA人群的全基因组变异特征与基因组结构,并鉴定了与疾病相关的遗传变异。
主要研究思路
主要结论
1.系统解析东南亚人群的基因组多样性
对东南亚地区的3023个个体进行平均43.5X的二代短读长全基因组测序,以及37个代表个体进行平均32.7×的三代长读长全基因组测序,识别到7,959万个SNV和Indel,以及96,384个SV,基于SEA3K数据集构建了一个高质量的基因型填补参考面板,与1KGP和TOPMed面板相比,SEA3K准确性显著提升,错误率降低了0.3至1倍。SEA3K参考面板已经发布在国家基因组科学数据中心(https://ngdc.cncb.ac.cn/gsa-human/browse/HRA007135)。
群体系统发育树与PCA结果一致。值得注意的是,大多数东南亚人群未按语系聚集,表示其历史过程中存在遗传混合与语言更替的复杂相互作用。ADMIXTURE分析显示其中最主要的一类是在柬埔寨及安达曼群岛人群占主导的独特古老成分,可能源自古老人群。研究证明了东南亚人群在末次盛冰期经历了严重的种群瓶颈效应,而后在农业扩张驱动下人口规模快速膨胀。
图1 SEA3K基因组变异数据的统计分析
2.发现东南亚人群适应热带雨林环境的关键基因
对东南亚大陆人群进行了全基因组自然选择信号分析。通过计算多信号综合评分(CMS),鉴定到44个受到强烈正选择的区域,涵盖89个基因,其中72个为首次发现的正选择靶点。这些基因的功能涉及生理形态特征、免疫与炎症反应、代谢调控、神经系统与心血管系统功能等适应性特征,揭示了东南亚人群应对热带环境的独特进化策略。
针对SV的正向选择分析中,鉴定出785个候选SV(337个缺失型变异,448个插入型变异)。这些SV在东南亚人群中显著富集。最强选择信号SV为位于1号染色体的7,439碱基对(bp)缺失,其等位基因频率在MSEA人群中为0.140,而在其他人群中极为罕见或完全缺失。功能注释表明,此7,439 bp缺失位于开放染色质区域,并覆盖一个CTCF结合位点及两个增强子元件,提示其可能通过调控邻近基因的活性发挥作用。
图3 SV分析揭示1号染色体中的7,439bp缺失
3.发现东南亚人群与丹尼索瓦人的多次基因渗入
为探究古人类基因渗入模式,我们采用Sprime算法对每个个体人群的古人类特异性等位基因进行检测。研究发现,与东亚和南亚人群相比,东南亚人群携带中等水平的尼安德特人序列,但其丹尼索瓦人序列含量接近东亚人群,且显著高于南亚人群。使用另一种方法(IBDmix)检测的尼安德特人渗入数据集也得到了相似结论。除了之前报道的东亚人群的两次渗入事件,首次在东南亚土著人群中发现了第3次基因渗入,进一步凸显了这一区域性人群中古老基因混合事件的复杂性——暗示源自不同丹尼索瓦人支系的基因混合可能在不同时期、不同地理区域发生。
图4 东南亚人群的古基因渗入
4.解析东南亚地区高发疾病的进化模式
通过ClinVar数据库对SEA3K数据集进行了注释发现东南亚人群中共有604个变异(429个SNVs和175个indels)被标注为“致病性变异”,涉及456个基因。值得注意的是,这10个常见变异很可能被ClinVar数据库误判为“致病性”——因其普遍存在于MSEA人群中,突显了此前代表性不足人群的基因组数据在过滤注释风险变异中的价值。针对结构变异(SVs)的注释显示,8个东南亚人群SVs与ClinVar报告的疾病相关SV区域存在部分重叠(超过50%),但未发现与ClinVar完全匹配的疾病相关SV。新发现了189个纯合子基因,分布于158个蛋白质编码基因,相关基因已被报道与欧洲人群的糖尿病、肌张力障碍、黑色素瘤、黄斑变性和癫痫等疾病易感性相关。
总结
该研究对东南亚大陆人群开展了大规模深度基因组测序,并系统解析了其基因组中的遗传变异。SEA3K能够显著提升基因型推断能力,从而大幅增强关联测试在复杂性状和疾病基因定位中的功效。为解析人类表型与环境互作机制、热带疾病遗传基础提供了关键支撑,对推动区域精准医学、跨境民族健康治理具有重大科学与社会意义。
参考文献:
[1] He, Y., Zhang, X., Peng, MS. et al. Genome diversity and signatures of natural selection in mainland Southeast Asia. Nature (2025).
Copyright@2011-2025 All Rights Reserved 版权所有:北京诺禾致源科技股份有限公司 京ICP备15007085号-1