泛基因组测序-诺禾致源-CNVPAV组装注释比较基因组个性化分析

基因组测序>
- 建库测序>
  - 二代建库测序服务
  - 三代建库测序服务
- 人类基因组测序>
- 动植物基因组测序>
- 微生物基因组测序>
转录调控测序>
表观组测序>
单细胞测序>
空间转录组>
基因分型>
质谱分析>
- 蛋白组学分析>
- 代谢组学分析>
- 血液蛋白质组分析>
  - Olink血液蛋白质组学
多组学联合分析>
分子育种>
基因合成>
相关资料下载

全基因组测序

基因组组装

三代测序组装策略

三代测序技术具有测序读长长、测序速度快、无GC偏好等优势，诺禾致源团队研发出针对三代数据的组装流程，极大的提升了三代数据组装的运算效率，
并且HiFi结合Hic，Ultra long ONT等新技术，能够得到单体型基因组、近完成图基因组，甚至获得完美基因组级别的基因组序列图谱。

基因组组装

组装结果评估

1. 序列一致性评估
在为了评估组装的准确性，选取一定量的测序数据与组装基因组比对，统计reads的比对率、覆盖基因组的程度以及深分布情况，由此评估组装的效果。
2. GC含量分析
组装的基因序列计算其GC含量和平均深度，根据此图分析测序数据是否存在GC偏向性以及样本是否存在污染。
3. BUSCO评估
BUSCO（Benchmarking Universal Single-Copy Orthologs：http://busco.ezlab.org/）评估是使用单拷贝直系同源基因库，结合tblastn、augustus 和hmmer 等软件对组装得到的基因组进行评估，以此评估组装基因组的完整性。

基因组注释

注释流程

基因组注释主要包括四个方面：重复序列注释、基因结构注释、基因功能注释、非编码RNA注释。
重复序列注释方法分为同源序列比对和从头预测两类；基因结构预测通常会结合多种预测方法，
主要有同源预测、de novo 预测和其他证据支持的预测；基因功能注释是将基因结构注释得到的基因集，
利用比对软件与已知蛋白数据库比对，得到基因的功能信息；非编码RNA的注释包括tRNA、rRNA、miRNA和
snRNA注释，各个方面的注释结果都可以以数据统计或图像的形式体现出来。

1. 重复序列注释
重复序列可分为串联重复序列（Tendam repeat）和散在重复序列（Interpersed repeat）两大类，分别用de novo 预测和同源预测的方法对基因组进行repeat注释。
2. 基因结构注释
基因结构de novo 预测中用于比对的同源物种包括多个物种，可以预测多种元件情况。

3. 基因功能注释

将基因结构注释得到的基因集与已知蛋白数据库比对，得到基因的功能信息。常用的蛋白数据库有SwissProt，TrEMBL，KEGG，Go和InterPro”配表如下：

	Number	Percent(%)
Total	28355	-
InterPro	18417	64.951508
KEGG	18670	65.843767
Swissprot	21329	75.221301
TrEMBL	22920	80.832305
GO	14767	52.078998
Annotated	23045	81.273144
Unanotated	5310	18.726856

4. 非编码RNA（ncRNA）注释

非编码RNA，指不翻译蛋白质的RNA，如rRNA、tRNA等，这些RNA都具有重要的生物学功能。通过与已知ncRNA库进行比对得到基因组的ncRNA信息（统计结果如下表）。

Type		Copy(w)	Average length(bp)	Total length(bp)	% of genome
miRNA		536	139.341417910448	74687	0.001834
tRNA		1238	75.218901453958	93121	0.002287
rRNA	rRNA	6758	186.523527670909	1260526	0.030954
	18S	688	871.928779069767	599887	0.014731
	28S	572	121.784965034965	69661	0.001711
	5.8S	275	125.298181818182	34457	0.000846
	5S	5223	106.551981619759	556521	0.013666
snRNA	snRNA	381	118.968503937008	45327	0.001113
	CD-box	99	107.060606060606	10599	0.000260
	HACA-box	19	135.631578947368	2577	0.000063
	splicing	263	122.247148288973	32151	0.000790

生物学分析

1. 基因家族分析
基于基因家族聚类的结果，鉴定物种特有的基因或者基因家族；发生显著扩增/收缩的基因家族；重要基因家族深入分析等（下图左）。
2. 系统进化分析
构建物种进化树，在全基因组水平上评估物种间进化关系；探讨整体进化地位和物种起源问题，估算与其他近缘物种之间的分化时间。
3. 正选择分析
通过自然选择某些有利的基因被固定下来，受到了正选择的基因，往往在该物种对环境的适应性方面有重要作用，全基因组测序能充分挖掘正选择基因。
4. 共线性分析
根据重复基因的进化动态或基因组共线性分析，追溯古老的基因组重复事件；根据染色体共线性关系，追溯染色体进化历史，如重排、融合（下图右）。

生物学分析—个性化分析

全基因组测序完成后不仅可进行常规标准分析，还可针对所研究物种的个性化生物学问题进行分析，针对某一类或特定一个物种的自身特点，结合转录组、重测序信息展开深入分析。如对金丝猴基因组的分析，对其植食性机制进行了深入研究；对于藏猪基因组分析，重点探讨了藏猪基因组中与高原适应性相关基因。这些方面与物种的独特生物学特征息息相关，一些生物学亮点也成为全基因组测序的研究重点。