转录组和基因芯片的药物敏感性分析全流程分析教程

药物敏感性分析ic50预测全流程分析教程

药物敏感性分析背景介绍和训练集数据文件文件下载获取

CTRP2, GDSCv1, GDSCv2 数据库简介

这三个都是目前最主流的癌细胞系药物敏感性数据库,提供了海量的基因组数据和药敏数据,是癌症研究和药物开发的重要资源。

  1. CTRP2 (Cancer Therapeutics Response Portal v2):由美国Broad研究所开发。它测试了数百种小分子化合物在近千种癌细胞系上的效果。它不仅提供IC50,还提供另一个常用的药敏指标AUC(剂量-反应曲线下的面积)
  2. GDSC (Genomics of Drug Sensitivity in Cancer):由英国Wellcome Sanger研究所和美国麻省总医院合作开发。是同类数据库中规模最大、应用最广的之一。
  3. GDSCv1:是其第一个主要版本,包含了对数百种药物和近千种细胞系的筛选数据。
  4. GDSCv2:是GDSC的更新和改进版。它包含了更多的药物和细胞系,并且优化了实验方案和数据分析流程,提供了更高质量、更可靠的药敏数据(IC50值)。在进行新研究时,通常推荐使用最新的GDSCv2数据。

这三个数据库都采用相似的实验和数据分析策略,其报告的IC50值(或ln(IC50))是评估药物效价的核心指标,而理解其对数尺度对于正确解读数据至关重要。

IC50的含义和“预测”

首先,IC50 (Half-maximal inhibitory concentration) 是一个药理学指标,指某种药物能够抑制特定生物过程(在这里是癌细胞增殖)一半(50%)时所需的浓度。IC50值越低,代表药物活性越强,即用更低的浓度就能有效杀死癌细胞。

在CTRP2和GDSC这样的数据库中,IC50值并不是一个直接的测量读数,而是通过一个数学模型“预测”或“估计”出来的。流程如下:

1. 实验:研究人员将一种癌细胞系暴露在一系列不同浓度的药物下(通常是7-9个浓度点)。

2. 测量:在一定时间后,测量每个浓度下的细胞存活率。

3. 曲线拟合:将“药物浓度”和“细胞存活率”这些数据点绘制成一个剂量-反应曲线(Dose-Response Curve)。

4. IC50估计:使用一个非线性回归模型(通常是S型的逻辑斯谛模型)来拟合这些数据点。IC50就是从这个拟合好的曲线上计算出的、导致50%细胞死亡所对应的药物浓度。

所以,这里的“预测”指的是通过模型拟合得到的估计值,而不是基于基因组数据等的从头预测。

IC50值的单位和大小介绍

看到负的IC50值确实会让人困惑,因为“浓度”本身不可能是负数。这个问题的答案是:数据库中存储和报告的IC50值是经过对数转换后的值。

在GDSC数据库(v1和v2)中,报告的值是IC50的自然对数,即 ln(IC50)。药物浓度单位通常是微摩尔(μM)

理解了这一点,负值的含义就清晰了:

  1. 当 ln(IC50) = 0 时,意味着 `IC50 = e^0 = 1`。所以,IC50值为1 μM。
  2. 当 ln(IC50) > 0 时,意味着 `IC50 = e^(正数) > 1`。例如,如果ln(IC50) = 2,则IC50 = e² ≈ 7.39 μM,表示药物敏感性较低。
  3. 当 ln(IC50) < 0 时,意味着 `IC50 = e^(负数) < 1`。例如,如果ln(IC50) = -2,则IC50 = e⁻² ≈ 0.135 μM,表示药物敏感性非常高,在很低的浓度下就有效。

总结:一个负的ln(IC50)值,表示该药物对该细胞系非常敏感(potent),其半抑制浓度远低于1μM。

百度网盘文件下载地址

药物数据库训练集文件含义的详细解释:

  1. 含有_Expr的rds文件是药物数据库中下载的表达数据训练集rds文件的路径
  2. 含有_Res.rds结尾的文件是药物数据库中下载的药物的ic50 rds文件的路径
  3. 训练集文件中CTRP2药物数据库的RPKM和TPM表达rds文件适用于测试数据是转录组高通量测序数据的情况。
  4. 训练集文件中GDSC1和GDSC2药物数据库中的RMA标准化的表达数据rds文件适用于测试数据是Affymetrix CEL基因表达芯片的情况,因为RMA标准化流程是专门给CEL芯片开发的处理方法。

在分析的时候直接提供这些rds文件路径和自己的表达数据文件的路径即可。建议第一次先使用百度网盘的这个TCGA-COAD_rnaseq_tpm.csv演示数据文件先运行一遍。

利用转录组或基因芯片数据预测出药物敏感性的IC50

转录组测序数据的药物敏感性IC50预测

对转录组测序数据进行RPKM或TPM标准化处理

因为CTRP2药物数据库中的转录组测序表达矩阵是只有RPKM和TPM这两种标准化处理的rds文件,所以自己的转录组测序数据如果是counts数据的话,也要标准化成RPKM或TPM这两种格式,已经是标准化好的文件,就不需要下面这里的标准化处理了。

软件界面

分析结果

利用转录组表达数据预测出药物敏感性的IC50

软件分析界面

运行结果

可以得到每个样本对应的每种药物的IC50值。

利用CEL基因表达芯片数据预测出药物敏感性的IC50

训练集文件中GDSC1和GDSC2药物数据库中的RMA标准化的表达数据rds文件适用于测试数据是Affymetrix CEL基因表达芯片的情况,因为RMA标准化流程是专门给CEL芯片开发的处理方法。这里也要使用CEL基因芯片来进行IC50预测。

RMA标准化的时候已经做过了log对数处理,所以RMA标准化的结果不需要再进行对数处理了。

GEO数据库的CEL芯片数据集下载

属于基因表达芯片数据的类型

GEO该GSE数据集网页中的:

Experiment type:Expression profiling by array

是这样的类型就是芯片数据

对于芯片数据可以再进一步查看是那种类型的芯片,方法如下:

可以在File type/resource里看到数据文件对应的类型,例如有CEL标志就是CEL芯片,有RCC标志的就是RCC芯片。

对于基因芯片数据,不同类型的芯片数据可以用下面的这个模块来分析:

GSEXXX_RAW.tar压缩包手动下载

GSEXXX_RAW.tar压缩包的解压

以GSE228854数据集为例,我们下载到了GSE228854_RAW.tar压缩包后,需要把压缩包里面的子文件都解压到一个GSE228854_RAW目录下,目录内是每个GSM样本的表达数据的单个文件,注意,大家一定要这样进行解压操作,就是不要直接把GSE228854_RAW.tar中的文件都解压到当前目录,而是解压到GSE228854_RAW目录下,这样用OmicsTools进行分析的时候会更容易识别和读取和执行。

把GSE228854_RAW.tar压缩包正确解压好的文件示意图如下:

对GSEXXX_RAW.tar解压后的GSEXXX_RAW目录下CEL芯片数据的多样本的合并和RMA标准化处理

CEL芯片的数据读取分析和注意事项

D:/omics_tools/demo_data/GSE228854_RAW/ 下的文件内容

我的示例文件里除了CEL.gz结尾文件外,还要有cdf.gz和cdf.txt.gz结尾的探针信息文件

如果大家的这个CEL芯片数据的探针信息用的不是cdf.gz和cdf.txt.gz结尾的探针信息文件,那应该是probeset.csv.gz结尾的探针注释信息文件,这个文件不能把它删掉了,要保留下来,除了CEL.gz和cdf.gz和cdf.txt.gz或probeset.csv.gz结尾的探针注释信息文件这些文件外,其它的文件是可以删除掉的。

另外如果我的R包时大家在2024年11月29日之前从我网盘里下载的,那么你还需要更新一下网盘里add_dir1里的存放的那些R包,add_dir1里的R包我上传到百度网盘里了:

运行窗口展示

运行状态显示内容

执行中,请稍后, 运行结果保存的目录位置为: D:/omics_tools/demo_data/res_dir; 分析结果日志保存的路径为: D:/omics_tools/demo_data/res_dir/GSE228854_RAW_last_final_run_res_log.csv

运行完成状态显示内容:

执行已完成,运行结果保存的目录位置为: D:/omics_tools/demo_data/res_dir; 分析结果日志保存的路径为: D:/omics_tools/demo_data/res_dir/GSE228854_RAW_last_final_run_res_log.csv

运行完成的结果文件

结果文件列表

查看RNA降解情况

RNA降解曲线主要用于评估样本中的RNA质量,帮助确定其是否适合进一步的实验分析,特别是基因表达分析。你可以通过以下几点来解读该图:

1. 曲线趋势:该图展示了每个位点探针从5'端到3'端的平均信号强度变化。理想的RNA样本在降解曲线上通常会呈现一个逐渐下降的趋势。图中的曲线确实显示出一个平滑的下降趋势,这意味着RNA从5'端到3'端的降解是相对一致的,没有明显的异常波动。

2. 曲线斜率:如果曲线从5'端到3'端的降解非常陡峭,可能表明RNA降解较为严重。图中曲线的斜率不是特别陡峭,这可能表示RNA降解在一个可接受的范围内。

3. 曲线的一致性:多条探针曲线之间的距离也可以反映样本间的一致性。在这个图中,各条曲线彼此接近,说明样本之间的降解模式相对一致,RNA质量在各个样本间的变化不大。

4. RNA质量判断:一般来说,如果降解曲线比较平滑,没有剧烈波动,说明RNA质量较好,适合后续的实验。如果曲线在中途出现波动或不规则变化,可能需要考虑RNA样本是否有降解问题。

这个RNA降解曲线图中显示了较平滑且一致的下降趋势,说明RNA质量较为稳定,适合后续的基因表达实验。这表明RNA的降解较为一致,未出现严重的降解问题。

未标准化前原始数据的数据质量展示

看不到中位数,数据最小值和最大值差别大,这样的数据是必须要经过标准化的。

RMA归一化处理后的结果

RMA标准化之后样本中的表达值被缩放到了0-12之间,极差缩小了,表达值在一个数量级内了,中位数被矫正在同一水平线上,比log2方法好很多,样本间的可比性变好了,适合用RMA标准化后的数据做后续的差异分析和可视化作图。

样本整合后的表达矩阵

利用CEL基因芯片表达数据预测出药物敏感性的IC50

软件分析界面

运行结果

可以得到每个样本对应的每种药物的IC50值。

药物敏感性IC50跟一组感兴趣基因的相关性分析研究基因表达水平-药物IC50的相关性

软件分析界面

分析模块位置

分析模块界面

分析结果文件

可以通过相关性分析来筛选基因表达跟耐药的强相关性的基因作为潜在的耐药基因。

OmicsTools软件和分析教程介绍

前言和简介

OmicsTools全能医学生物生信分析电脑软件简介

我开发了一款本地电脑无限使用的零代码生信数据分析作图神器一站式全流程电脑软件OmicsTools,旨在成为可以做各种医学生物生信领域科研数据分析作图的的全能科研软件,欢迎大家使用OmicsTools进行生物医学科研数据分析和作图,该软件件能让大家在不需要任何编程和代码编写的基础上,分析次数没有限制,可以无限使用,让您在自己电脑上快速进行大量的生信分析和加速大家的科研。

OmicsTools生信分析电脑软件可以做医学生物生信各个领域的科研数据分析和作图,并致力于成为医学生物生信领域的综合全能分析软件,一个软件帮助大家做医学生物生信领域的各种研究,快速出成果。

软件下载获取

我开发的本地电脑无限使用无限分析作图的生信零代码一键分析电脑软件神器OmicsTools 软件在github上的zihaoxingstudy1/OmicsTools(https://github.com/zihaoxingstudy1/OmicsTools)仓库中,也可以到我的生信交流q群群文件中下载,q群中的软件版本会更新一些,大家可以下载安装OmicsTools进行各种生信分析和可视化作图。

现在1群满员,会提示加2群,2群也可以下载到软件。

持续整理的各领域生信分析文档和答疑文档

所有人可编辑提问我对各种问题跟答疑答疑的腾讯文档

【腾讯文档】各领域生信分析全流程教程和答疑指导汇总版

https://docs.qq.com/doc/DWWtrd0Z2T1JHWVNa

所有大家遇到的各种生信分析问题都在我的这篇腾讯文档对应的答疑文档中进行,腾讯文档的答疑文档支持所有人编辑和提问。

这篇总的腾讯文档是各领域生信分析答疑指导汇总文档的入口,以后所有的生信分析教程资料都在这个在线word文档中就能检索到,答疑汇总也能在这个word文档中检索到,都在这个在线word文档对应的提问答疑文档文件中提问,提问的问题在文档中用红色字体显示,我答疑在文档中用黑色字体显示,提问答个疑的文档和教程的文档所有人都可编辑。大家在腾讯文档里提问好了之后,现在答疑文档也是比较多的,发个截图和答疑文档的链接网址给我看看,这样我能快速定位到你提问的是哪个问题。

可以提供的科研服务清单

版权声明:
作者:dingding
链接:https://www.techfm.club/p/218600.html
来源:TechFM
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>