全基因组关联分析-经典案例-诺禾致源

类别	物种	样本数	采样情况
原生动物类	疟原虫	1,162	取自柬埔寨、越南、老挝、泰国、缅甸、孟加拉国、刚果、尼日利亚的13个地区，个体采集后均进行青蒿素处理
林木类	毛果杨	649	取自英属哥伦比亚、华盛顿、俄勒冈、加利福尼亚4个地区，1,100个个体，对其中649个个体进行测序，选取测序深度7X以上的544个个体进行分析
林木类	三角叶杨	448	取自英属哥伦比亚森林
畜牧类	牛	234	取自荷兰种、德国种以及泽西种牛3个种类关键祖先的后代
作物类	谷子	916	812株取自中国北部、西北部、中部及南部，90株取自世界其他地方、14株杂种
	大豆	286	取自国内各个省份，随机采样
	大豆	302	选取302株大豆测序（包括栽培种、地方品种和野生种），根据群体分层结果选取139株进行GWAS研究
	高粱	971	选取971分来自世界各地的高粱，根据群体分层结构选取336份进行GWAS研究

Q

是否需要多年多点的表型鉴定实验消除环境对表型的影响？

建议进行多年多点表型鉴定实验。动植物的表型性状由基因型（G）、环境效应（E）共同作用。即非遗传因素（不同的实验环境）对表型有一定的影响，是需要考虑的。研究者可以基于一定的统计方法来降低这种环境差异对表型造成的影响：
1. 可以将单年的表型数据分别进行分析，最后比较结果并汇总；
2. 将多年多点的表型数据进行育种值计算再进行全基因组关联分析。
Q

研究其中一个性状所需的样本数建议是多少？

建议是单一性状的样本支持数在200个以上，同一个体可对其多个性状进行研究，因此研究多个性状时总样本数不要求是性状数x200。
Q

为什么推荐≥5X的测序深度？

研究人员对测序深度对GWAS结果的影响进行了评估。结果显示，当测序深度为2X，样品基因分型的检出一致性在90%以上，当测序深度为4X的时，为96%以上，6X时98%以上。此外，当测序深度达到5X时，个体的1X覆盖度达到90%以上，满足后续GWAS的分析需求，而当测序深度达到7X以上，个体1X覆盖度达到95%以上，不进行缺失推断即可满足分析需求。综合考虑项目的成本及结果准确度，建议的测序深度≥5X。
Q

不同性状可在一个个体上交叉吗？

不同性状可在同一个个体上交叉，如以株高和颜色性状划分群体，两个群体间会有重叠的个体存在，不影响分析的结果。
Q

测序深度与群体大小的关系，哪个对分析的影响结果更大？

根据文献的报道及在线数据的模拟情况，样本量大时低深度测序即可满足后续分析的需求，但样本量较少时则需要高深度的测序。而测序深度与分析群体大小两个因素都是影响分析结果的因素，当测序深度较低时可以缺失推断，因此两者相比群体大小对分析结果的影响更大。
Q

如何降低分析结果的假阳性？

在全基因组关联分析中，前期对样本的采集情况（表型分布均匀，环境一致）会对后续分析的假阳性结果存在最大的影响，在分析过程中会采用如下方法降低分析结果的假阳性：
1. 结合群体分层信息，利用混合线性模型，对结果进行校正；
2. 必要时还会采取多种线性模型进行分析降低假阳性；
3. 采用Bonferroni校正法来校正GWAS分析中多重假设检验后的P值以降低假阳性的概率。因此，前期对样品的采集及表型的记录需要准确详细。
Q

获得相关结果后如何验证？

根据已有的文献报道，获得与性状关联的候选基因后，常见的验证方法有以下几种：
1. 可同已发表的同一物种或者其他物种的相关性状QTL或者GWAS分析所找到的基因进行比较，若为其他群体证实的基因，表明可靠程度较高，如水稻、小麦、大豆、白菜、牛、羊、斑马鱼等分析较多的物种；
2. 若是没有相关的研究成果，可通过家系群体QTL分析或者更大群体的GWAS验证，进一步验证GWAS所得结果，如水稻、拟南芥、大豆等易获得群体的物种；
3. 结合转录组或者表达谱分析，验证相关区域或者位点调控的通路信息。

常见问题

GWAS所需的样本数是多少？

样本选择的标准？

是否需要多年多点的表型鉴定实验消除环境对表型的影响？

研究其中一个性状所需的样本数建议是多少？

为什么推荐≥5X的测序深度？

不同性状可在一个个体上交叉吗？

测序深度与群体大小的关系，哪个对分析的影响结果更大？

如何降低分析结果的假阳性？

获得相关结果后如何验证？