bulk转录组测序分析之数据清洗

ht • 2025-11-17 20:35 • 杂文

今天我们来讲一讲bulk转录组测序的数据清洗部分。RNA-Seq是技术相对更成熟，应用最广泛，最适合生物信息学入门的方向。bulk RNA-Seq是最普遍的转录组测序方法，所谓bulk就是我们测的是所有细胞的总RNA（狭义指mRNA）取平均值代表每个基因的表达量。

我们从公司得到的原始的下机数据是fastq格式的文件

FASTQ Format (Illumina example)

我们拿到原始数据之后首先做数据的质控过滤，常用的软件包括fastp、fastqc。首先使用fastqc得到网页版的质量报告，再使用trim_galore去除质量低的和接头序列，trim_galore可以指定接头序列也可以自主查询，还可以通过--length设定长度的阈值，小于该阈值的序列会被扔掉。

fastqc+trim_galore

fastqc-t2CER3_1_R1.fastq.gz CER3_1_R2.fastq.gz#双端测序，-t表示线程数trim_galore-q20-o ./--fastqc--paired-j2CER3_1_R1.fastq.gz CER3_1_R2.fastq.gz#--paired表示双端测序，-q 20表示去除Phred分数低于20的序列，-o表示输出（这里指输出到当前目录下），-j表示线程数，--fastqc表示清洗之后再交给fastqc做质控

fastqc结果报告

通过网页版的报告我们可以大致的了解到我的序列的质量情况，trim_galore后基本就可以用于后续的分析了。

还有一种常用的工具是fastp，整合了fasqc与trim_galore的功能

fastp

fastp-iCER3_1_R1.fastq.gz-ICER3_1_R2.fastq.gz-oCER3_1_R1.clean.fastq.gz-OCER3_1_R2.clean.fastq.gz-jCER3_1.json-hCER3_1.html-w2 &#-i-I表示两个双端文件，-o-O表示输出文件，-j.json的报告，-h网页版报告文件，-w线程数

fastp结果报告

我们经常会听到测序公司说测序的质量Q30>90%，是什么意思呢？就是说公司保证至少有90%以上的碱基错误率是小于千分之一的。类似的还有Q20（百分之一），Q40（万分之一），Q50（十万分之一）。

转录组我们一般使用fastp，做完数据清洗之后就可以进行后续分析了。

版权声明：
作者：ht
链接：https://www.techfm.club/p/226886.html
来源：TechFM
文章版权归作者所有，未经允许请勿转载。

THE END

二维码

古为今用《故事汇》020《话说三国那些事》下（098）

< <上一篇

14/5突然很羡慕蒋易团队

下一篇>>

搜索内容

bulk转录组测序分析之数据清洗

取消回复

共有 0 条评论

Ads