数据篇01 | GEO数据库介绍与数据下载
GEO是由美国国家生物技术信息中心(NCBI)建立和维护的一个公共数据库,主要用于收集和存储高通量功能基因组学数据,包括RNA-seq单细胞测序,DNA甲基化以及基因芯片数据等。
网址:https://www.ncbi.nlm.nih.gov/geo/
主页介绍

Getting Started:GEO使用教程
Tools:包含一些常用工具与功能,比如Search for Studies 用来查找数据,Search for Gene Expression用来查找基因表达情况,GEO2R是基于limma 包的网页版界面,寻找差异基因Browse Content:查看GEO 中所有项目、样本、平台等的总览信息
数据介绍

GSE:项目编号,表示一个完整的研究项目。通常对应一篇论文或一次实验,包含多个样本(GSM)和使用的平台(GPL)信息,可以从中下载表达矩阵或查看实验设计描述。
GSM:样本编号,表示一个具体的实验样本。每个 GSM 包含该样本的处理信息(如处理组/对照组)、组织来源、物种等。可以下载该样本的原始数据文件(如 FASTQ、CEL、counts)GPL:平台编号,表示用于实验的测序平台或芯片设计。包含该平台上所有探针或测序位点的注释信息,决定了表达矩阵中每一行的意义(基因名/探针 ID)。
数据下载
1.手动下载

Series Matrix File:GEO官方预处理好的表达矩阵,适合直接分析。
Supplementary Files:补充数据下载,如原始数据、注释表、稀疏矩阵等
2.代码下载(推荐)
使用GEOquery下载数据(R包),需要输入想要下载的数据编号。
# 安装 GEOquery(如未安装)
if (!requireNamespace("GEOquery", quietly = TRUE)) {
install.packages("BiocManager")
BiocManager::install("GEOquery")
}
library(GEOquery)
# 输入数据编号
gse <- getGEO("GSE241226", GSEMatrix = TRUE)
# 提取表达矩阵
expr_matrix <- exprs(gse[[1]])
# 提取样本信息
sample_info <- pData(gse[[1]])
# 保存表达矩阵
write.csv(expr_matrix, file = "GSE241226_expression_matrix.csv")
# 保存样本信息
write.csv(sample_info, file = "GSE241226_sample_metadata.csv")
结果包含的是Series Matrix数据,通常包含以下信息:

experimentData:描述实验设计信息,如题目、摘要、实验者、文献引用等。
assayData:表达量矩阵数据,真正的数值存储位置。
phenoData:样本注释信息例如组别、细胞类型、处理条件等
featureData:基因(探针)注释信息。
annotation:表示数据使用的平台编号。
protocolData:实验过程(protocol)信息,常常为空。
共有 0 条评论