NGS原理- 转录组计数统计Readcounts-如何才是合理的
转录组Read Counts统计原理:
一般来说是通过比对工具(如HISAT2、STAR,fanse)将测序reads比对到参考基因组
使用计数工具(如HTSeq、featureCounts)统计比对到每个基因区域的reads数
合理的统计方法应包含考虑多比对reads的分配问题(如EM算法)
重要的就是这个原始计数(Raw counts):简单统计比对到基因的reads数,是怎么统计的,因为后续所有的统计都是基于这个,那么各种花一样的玩法,如果这个基础没打好,都是天上浮云。
同样一列基因名,看第二列总计counts(multimapping的取第一个基因名作为主基因名使用,加上single部分的counts),第三列是只统计single mapping的counts(只mapping到一个位置,只有一个基因名)。
- 可以看出差异巨大,最高比对counts数的这一些里面,如果只看single部分,有接近一半,差异极其显著极其显著。
- 所以不考虑multi mapping的counts,只用single counts是不合理也非常不合适的。
- 那么,换用基因层面而不用转录组层面呢,明显会好一些。
- 如何才是更合理一些的呢?
gene_id | totalcounts | singlecounts |
---|---|---|
Os11t0167800-01 | 211441 | 165091.0 |
Os09t0484200-02 | 204609 | 3510.0 |
Os02t0115700-03 | 169530 | 658.0 |
Os07t0529600-02 | 96804 | 305.0 |
Os03t0250400-01 | 95572 | 78585.0 |
BGIOSGA037854-TA | 94880 | 94880.0 |
Os07t0599600-02 | 88999 | 60996.0 |
Os09t0346500-04 | 86011 | 53294.0 |
Os03t0300400-01 | 77053 | 59381.0 |
Os01t0600900-02 | 76243 | 3117.0 |
Os05t0247100-02 | 75378 | 没了 |
Os02t0121300-01 | 75238 | 60025.0 |
Os11t0671000-01 | 73698 | 73637.0 |
Os03t0291500-01 | 72978 | 58062.0 |
Os02t0626100-01 | 72014 | 306.0 |
Os03t0670700-02 | 69036 | 47139.0 |
Os09t0484200-01 | 68016 | 44487.0 |
Os03t0670700-04 | 61615 | 48.0 |
Os05t0227600-01 | 49864 | 47132.0 |
Os03t0655400-01 | 49532 | 49532.0 |
Os02t0115700-01 | 49490 | 3.0 |
Os04t0656100-04 | 47435 | 没了 |
Os12t0632000-01 | 46278 | 45937.0 |
Os01t0773700-02 | 44782 | 22642.0 |
Os10t0450900-02 | 44743 | 44742.0 |
Os01t0303000-02 | 43590 | 25076.0 |
Os01t0642200-01 | 43375 | 38167.0 |
BGIOSGA030998-TA | 43264 | 43264.0 |
共有 0 条评论