基因组测序>
建库测序>
人类基因组测序>
动植物基因组测序>
微生物基因组测序>
转录调控测序>
表观组测序>
单细胞测序>
空间转录组>
基因分型>
质谱分析>
蛋白组学分析>
代谢组学分析>
免疫定量>
转化医学>
转化医学及临床试验服务>
伴随诊断一站式解决方案>
多组学联合分析>
基因组组装
三代测序组装策略
基因组组装
组装结果评估
1. 序列一致性评估
在为了评估组装的准确性,选取一定量的测序数据与组装基因组比对,统计reads的比对率、覆盖基因组的程度以及深分布情况,由此评估组装的效果。2. GC含量分析
组装的基因序列计算其GC含量和平均深度,根据此图分析测序数据是否存在GC偏向性以及样本是否存在污染。3. BAC/fosmid评估
通过一定数量的BAC/fosmid克隆序列对基因组进行评估,检查拼接序列对克隆序列的覆盖度水平。4.BUSCO评估
BUSCO(Benchmarking Universal Single-Copy Orthologs:http://busco.ezlab.org/)评估是使用单拷贝直系同源基因库,结合tblastn、augustus 和hmmer 等软件对组装得到的基因组进行评估,以此评估组装基因组的完整性。基因组注释
注释流程
1. 重复序列注释
重复序列可分为串联重复序列(Tendam repeat)和散在重复序列(Interpersed repeat)两大类,分别用de novo 预测和同源预测的方法对基因组进行repeat注释。2. 基因结构注释
基因结构de novo 预测中用于比对的同源物种包括多个物种,可以预测多种元件情况。3. 基因功能注释
将基因结构注释得到的基因集与已知蛋白数据库比对,得到基因的功能信息。常用的蛋白数据库有SwissProt,TrEMBL,KEGG,Go和InterPro”配表如下:Number | Percent(%) | |
---|---|---|
Total | 28355 | - |
InterPro | 18417 | 64.951508 |
KEGG | 18670 | 65.843767 |
Swissprot | 21329 | 75.221301 |
TrEMBL | 22920 | 80.832305 |
GO | 14767 | 52.078998 |
Annotated | 23045 | 81.273144 |
Unanotated | 5310 | 18.726856 |
4. 非编码RNA(ncRNA)注释
非编码RNA,指不翻译蛋白质的RNA,如rRNA、tRNA等,这些RNA都具有重要的生物学功能。通过与已知ncRNA库进行比对得到基因组的ncRNA信息(统计结果如下表)。Type | Copy(w) | Average length(bp) | Total length(bp) | % of genome | |
miRNA | 536 | 139.341417910448 | 74687 | 0.001834 | |
tRNA | 1238 | 75.218901453958 | 93121 | 0.002287 | |
rRNA | rRNA | 6758 | 186.523527670909 | 1260526 | 0.030954 |
18S | 688 | 871.928779069767 | 599887 | 0.014731 | |
28S | 572 | 121.784965034965 | 69661 | 0.001711 | |
5.8S | 275 | 125.298181818182 | 34457 | 0.000846 | |
5S | 5223 | 106.551981619759 | 556521 | 0.013666 | |
snRNA | snRNA | 381 | 118.968503937008 | 45327 | 0.001113 |
CD-box | 99 | 107.060606060606 | 10599 | 0.000260 | |
HACA-box | 19 | 135.631578947368 | 2577 | 0.000063 | |
splicing | 263 | 122.247148288973 | 32151 | 0.000790 |
生物学分析
1. 基因家族分析
基于基因家族聚类的结果,鉴定物种特有的基因或者基因家族;发生显著扩增/收缩的基因家族;重要基因家族深入分析等(下图 左)。2. 系统进化分析
构建物种进化树,在全基因组水平上评估物种间进化关系;探讨整体进化地位和物种起源问题,估算与其他近缘物种之间的分化时间。3. 正选择分析
通过自然选择某些有利的基因被固定下来,受到了正选择的基因,往往在该物种对环境的适应性方面有重要作用,全基因组测序能充分挖掘正选择基因。4. 共线性分析
根据重复基因的进化动态或基因组共线性分析,追溯古老的基因组重复事件;根据染色体共线性关系,追溯染色体进化历史,如重排、融合(下图 右)。生物学分析—个性化分析
全基因组测序完成后不仅可进行常规标准分析,还可针对所研究物种的个性化生物学问题进行分析,针对某一类或特定一个物种的自身特点,结合转录组、重测序信息展开深入分析。如对金丝猴基因组的分析,对其植食性机制进行了深入研究;对于藏猪基因组分析,重点探讨了藏猪基因组中与高原适应性相关基因。这些方面与物种的独特生物学特征息息相关,一些生物学亮点也成为全基因组测序的研究重点。有参考基因组de novo 测序
一些物种,虽然已经有参考基因组,但是一些性状定位工作仍然进行困难,一部分原因是与该性状相关的基因在参考基因组中不存在,另外一部分原因是性状相关基因处于基因组中的快速进化区域,使用传统手段难以进行鉴定。因此,在一个物种已有参考基因组情况下,对具有重要性状的品种展开de novo 测序,以获得品种特有的基因并对高变区域进行变异检测,有很大的必要性。1. 特有基因检测
不同品种及同一品种不同个体都会有自己特有的基因,这些特有的基因与其性状密切相关,同一作物不同品种之间的变异远比我们想象的要大。充分了解这些信息之后,在农业研究中将有重要的价值。通过基因组de novo 研究可充分检测到与差异性状相关的基因。2. 变异检测
各类栽培作物的基因组中存在大量在进化过程中受到强烈人工选择的区段,这些区段往往是快速进化的区域,传统手段难以检测。在野生品种和栽培品种之间存在大量碱基变异,通过当前高通量测序技术,可全面、快速、准确的检测到变异区域。对于通过重测序技术无法判别的变异区,通过基因组de novo 可准确的识别出高变区域内的所有变异位点。Copyright@2011-2023 All Rights Reserved 版权所有:北京诺禾致源科技股份有限公司 京ICP备15007085号-1