• 客户服务系统CSS
  • |
  • |
诺禾致源

 > 

科技服务

 > 

基因组测序

基因组大小预估

K-mer深度分布服从泊松分布,根据曲线获得K-mer深度期望值,用于估计基因组大小。 一般来说我们会选择K-mer分布最多的峰为主峰,主峰所对应的深度值为K-mer深度期望值。 基因组大小=K-mer总数/K-mer期望深度值。
K-mer K-mer number K-mer Depth Genome Size(Mbp) Revised Genome Size (Mbp)
17 47,719,794,696 62 769.67 763.41

杂合度和重复率评估

在理想的数据模型中,即不存在重复序列或者杂合的情况, 一套基因组上的每个K-mer应该只出现唯一一次,也就是说,对于基因组上的所有的K-mer来说,它的频率数均为1; 而在实际样品的基因组中,会存在杂合和重复序列的情况,因此每个K-mer对应的频数不确定。 K-mer可以根据其出现的频率数来分类,基于贝叶斯模型和K-mer所有的频率数和深度属性, 可以得到并且通过迭代来修正,由此反映基因组的杂合率和重复序列的情况。

GC含量分布图

横坐标表示GC含量,纵坐标表示测序深度,右方是contig覆盖深度分布,上方是GC含量分布,我们选取长度在2Kb以上的contig序列,根据其GC分布以及覆盖深度信息绘制散点图,其中红色的部分代表该散点图中点的密度比较大的部分,可以看到在红色区域部分,该物种的GC分布呈现出两部分的区域分布,两部分的重心分别在深度20左右和40左右,即对应右边的contig覆盖分布,在20位置的小峰为杂合峰,在40位置的为纯合峰。对应红色的散点图,深度在20左右的红色区域是杂合contig的GC分布区域;再看上方的GC含量分布,主峰在35的位置,和我们计算得到的基因组的GC含量基本一致,且红色的散点也分布在GC含量在35%附近,说明该基因组没有受到其他外源物种的污染。

Copyright@2011-2024 All Rights Reserved    版权所有:北京诺禾致源科技股份有限公司    京ICP备15007085号-1

一对一业务咨询

一对一业务咨询

在线客服

联系方式

联系电话

400-658-1585

企业邮箱

service@novogene.com
返回顶部