NGS原理- 转录组计数统计Readcounts-如何才是合理的

转录组Read Counts统计原理:

一般来说是通过比对工具(如HISAT2、STAR,fanse)将测序reads比对到参考基因组
使用计数工具(如HTSeq、featureCounts)统计比对到每个基因区域的reads数
合理的统计方法应包含考虑多比对reads的分配问题(如EM算法)
重要的就是这个原始计数(Raw counts):简单统计比对到基因的reads数,是怎么统计的,因为后续所有的统计都是基于这个,那么各种花一样的玩法,如果这个基础没打好,都是天上浮云。

同样一列基因名,看第二列总计counts(multimapping的取第一个基因名作为主基因名使用,加上single部分的counts),第三列是只统计single mapping的counts(只mapping到一个位置,只有一个基因名)。

  • 可以看出差异巨大,最高比对counts数的这一些里面,如果只看single部分,有接近一半,差异极其显著极其显著。
  • 所以不考虑multi mapping的counts,只用single counts是不合理也非常不合适的。
  • 那么,换用基因层面而不用转录组层面呢,明显会好一些。
  • 如何才是更合理一些的呢?
gene_id totalcounts singlecounts
Os11t0167800-01 211441 165091.0
Os09t0484200-02 204609 3510.0
Os02t0115700-03 169530 658.0
Os07t0529600-02 96804 305.0
Os03t0250400-01 95572 78585.0
BGIOSGA037854-TA 94880 94880.0
Os07t0599600-02 88999 60996.0
Os09t0346500-04 86011 53294.0
Os03t0300400-01 77053 59381.0
Os01t0600900-02 76243 3117.0
Os05t0247100-02 75378 没了
Os02t0121300-01 75238 60025.0
Os11t0671000-01 73698 73637.0
Os03t0291500-01 72978 58062.0
Os02t0626100-01 72014 306.0
Os03t0670700-02 69036 47139.0
Os09t0484200-01 68016 44487.0
Os03t0670700-04 61615 48.0
Os05t0227600-01 49864 47132.0
Os03t0655400-01 49532 49532.0
Os02t0115700-01 49490 3.0
Os04t0656100-04 47435 没了
Os12t0632000-01 46278 45937.0
Os01t0773700-02 44782 22642.0
Os10t0450900-02 44743 44742.0
Os01t0303000-02 43590 25076.0
Os01t0642200-01 43375 38167.0
BGIOSGA030998-TA 43264 43264.0

版权声明:
作者:Zad
链接:https://www.techfm.club/p/217808.html
来源:TechFM
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>