单细胞多组学免疫数据库 scImmOmics

杂志:2024 年 11 月《 Nucleic Acids Research 》 影响因子 13.1
题目:scImmOmics:手动整理的单细胞多组学免疫数据资源
单位:南华大学衡阳医学院第一附属医院

1 摘要
1、scImmOmics 是一个手动整理的单细胞多组学免疫数据库,基于具有已知免疫细胞标签的高质量免疫细胞构建。目前,scImmOmics 记录了来自七种单细胞测序技术的 >290 万个细胞类型标记的免疫细胞,涉及 131 种免疫细胞类型、47 种组织和 4 种物种
2、文章标准化了免疫细胞类型的命名法,并以分层树状结构呈现它们,以清楚地描述免疫系统内的谱系关系
3、scImmOmics 还提供全面的免疫调控信息,包括 T 细胞/B 细胞受体测序克隆型信息、细胞特异性调控信息(例如已知细胞类型内的基因/染色质可及性/蛋白质/转录因子状态、细胞间通讯和共表达网络)以及免疫细胞对细胞因子的反应
七种单细胞测序技术汇总:

2 介绍
1、已经开发的一些与免疫相关的资源 ImmCluster 和 SPICA 提供了带有注释细胞标签的单细胞免疫数据,但它们主要侧重于 scRNA-seq,这限制了免疫景观的完整映射和免疫系统的深入探索。其他单细胞多组学技术(例如 scTCR-seq、scBCR-seq、scATAC-seq、CITE-seq 和 scCUT&Tag)的出现,通过捕获转录组、表观遗传和功能方面,为解释细胞异质性和研究免疫系统开辟了新的视角
2、scImmOmics 提供全面的细胞/细胞簇特异性调控信息,例如聚类、基因表达、差异表达基因 (DEG)、通路/基因本体 (GO) 术语/标志/免疫特征注释、分化轨迹、细胞间通讯、共表达网络及其特征基因、蛋白质表达、组蛋白修饰状态、差异染色质可及区域以及转录因子 (TF) 的 z 值
3、scImmOmics 尤其提供免疫克隆丰度、不同细胞类型间免疫克隆型分布以及对细胞因子的免疫反应的分析,从而有助于更深入地了解免疫细胞多样性、克隆扩增、抗原特异性和功能亚群

3 材料和方法
3.1 数据预处理
1、PubMed 数据搜索 ‘(Single cell) OR (Single-cell sequencing) OR (Single cell epigenomic) OR (scRNA-seq) OR (scTCR-seq) OR (scBCR-seq) OR (scATAC-seq) OR (CITE-seq) OR (ECCITE-seq) OR (scCUT&Tag)’ ,获得了 7000 余篇近期发表的文献。文献中,“数据可用性”部分通常记录了数据存储的资源,主要包括 NCBI GEO ,Single Cell Expression Atlas (EMBL-EBI/SCEA) ,GitHub, Zenodo, Human Cell Atlas Portal (HCA) 和 CellTypist 的数据,它们被存储成了不同的格式 MatrixMarket, RDS and H5
2、下载并保留包含元数据的数据,这些数据通常从原始文章中继承了 UMAP 坐标和细胞/组织类型信息。根据细胞类型信息提取和过滤免疫细胞。手动调整和扩展元信息,使其包括物种、组织、健康/疾病状态、数据源、平台、PMID、文章名称、期刊和年份
3、为了生成细致的免疫细胞层次结构,通过以下步骤进一步标准化了不同的元信息:(1)将缩写的细胞类型转换为其全名;(2)将细胞类型映射到细胞本体;(3)将细胞本体中不存在的新细胞亚型添加到我们的细胞类型层次结构中;(4)统一组织名称
4、最后收集了来自不同平台的 131 种免疫细胞类型的 290 多万个细胞,包括 10x Genomics、MARS-seq、Seq-Well、Smart-seq2、inDrop 和 Microwell-seq
3.2 差异基因及功能注释
根据已知的免疫细胞类型,使用 R 包 Seurat 中的 “FindAllMarkers” 函数识别每种细胞类型的 DEG,并使用 Wilcoxon 检验确定显著的 P 值。对数转换倍数变化(|logFC| > = 0.25)和P值 < 0.01 的基因被认为是差异表达的。使用R包 clusterProfiler 对每个 DEG 集进行功能富集分析。这些 GO 术语、通路、标志和免疫特征(来自 MSigDB)的调整后P值 < 0.05 被认为是显著富集的,并使用条形图和气泡图进行可视化
3.3 分化轨迹
轨迹分析有助于理解不同细胞类型之间的转变和相互作用,揭示免疫系统内复杂的动态变化。本文使用 R 包 Monocle3 推断免疫细胞的轨迹及其发育拟时间,并采用 “get_earliest_principal_node” 策略设置默认根节点
3.4 共表达模块
使用高维加权基因共表达网络分析(hdWGCNA) 识别了不同组间的关键调控因子。对于每个模块,使用“ModuleConnectivity”函数计算基于特征基因的连接性(kME)和高度连接的枢纽基因
3.5 细胞间通讯
为了评估不同免疫细胞类型在信号通路水平上的细胞间相互作用 (CCI),基于 CellChatDB 数据库进行了 CellChat 分析。与信号通路相关的每种配体-受体相互作用均被赋予一个概率值,并进行置换检验以推断细胞间通讯
3.6 克隆型的鉴定与统计
1、绘制免疫细胞克隆型图谱可帮助用户了解抗原受体识别机制和免疫系统内的功能多样性,基于从 scTCR-seq 或 scBCR-seq 数据中提取的 CDR3 序列,计算了每个细胞的克隆频率、当前细胞类型中具有该克隆型的细胞比例以及不同细胞类型之间的克隆型分布
2、scImmOmics 提供了有关免疫细胞类型、V(D)J 基因注释和 CDR3 序列的详细信息
3.7 差异可及性区域 (DAR) 和功能注释 (scATAC-seq)
研究不同细胞类型的差异可及性区域 (DAR) 对于理解免疫细胞异质性和多样性至关重要。对于 scATAC-seq 样本,我们使用 scATAC-pro 的 runDA 模块计算每种细胞类型的 DAR,并使用assignGene2Peak 函数识别最近的相关基因
差异可及性区域 (DAR, Differentially Accessible Regions) 是指在 scATAC-seq 或类似技术中,两个或多个样本(如不同细胞类型、状态或条件)之间染色质可及性存在显著差异的基因组区域。这些区域通常对应于调控元件,如启动子、增强子或绝缘子,反映了基因表达调控的潜在变化
4 数据库实现
scImmOmics 使用 MySQL 5.7.17 开发,在基于 Linux 的 Apache Web 服务器上运行
5 数据库描述
5.1 scImmOmics概述
1、scImmOmics 的主要框架和功能如 Fig1 所示。数据集涵盖多种模态,包括“scRNA-seq + scTCR-seq + scBCR-seq”、“ECCITE-seq + scTCR-seq + scBCR-seq”、“scRNA-seq + scTCR-seq + scATAC-seq”、“CITE-seq + scTCR-seq”和“scRNA-seq + scTCR-seq” 。
2、进一步对这些数据集进行了统一的标准化和下游分析,例如基因/蛋白质/转录因子活性计算、差异表达基因(DEG)识别、通路/GO term/免疫标签富集分析、细胞间通讯、共表达网络分析、DAR识别、共可及性预测、免疫克隆丰度、不同细胞类型间的免疫克隆型分布以及对细胞因子的免疫应答
3、对于这些数据集和下游分析结果,scImmOmics 支持三种检索模型、两种分析工具以及一个用户友好的浏览器和下载界面
4、scImmOmics 还为免疫细胞类型提供了标准化的命名和细致的层次树,Fig1 左下图

5.2 用于检索 scImmOmics 数据集的搜索界面
1、如Fig2 所示,scImmOmics 使用户可以搜索、浏览、分析、可视化和下载感兴趣的免疫细胞。在“搜索”界面,文章提供了三种搜索免疫相关样本的查询方法:“按组织类型搜索”、“按疾病搜索”和“按细胞类型搜索” (Fig2A);返回样本的简要信息显示在结果页面的表格中,包括样本 ID、来源、已知细胞类型、组织、文章名称和 PMID(Fig2A);用户可以点击感兴趣的样本 ID 进入详细页面,其中所涉及的免疫细胞类型的统一层次结构以树状图突出显示 (Fig2E)
2、对于可视化面板中的 scRNA-seq 数据,我根据已知细胞标签、基因表达活性、细胞间通讯、共表达网络、DEG、功能注释、分化潜力和伪时间显示了不同颜色的 UMAP 投影。同时,还显示了每个免疫细胞的克隆频率、不同细胞类型中具有克隆型的细胞比例以及单个免疫细胞的详细克隆型信息。对于 CITE-seq 和 ECCITE-seq 数据,我们显示了每个细胞中目标蛋白的活性(Fig2C)
3、对于 scATAC-seq 数据,scImmOmics 提供了 UMAP 投影、基因/TF 活性评分、TF 活性热图以及差异染色质可及性区域和 TF 表格(Fig2D)。 在 scCUT&Tag-pro 的详细页面上还可以显示在同一免疫细胞中测量的组蛋白修饰活性和蛋白质表达信息
5.3 用于浏览 scImmOmics 数据集的用户友好界面
1、如图Fig2A, 浏览器表格描述了每个样本的信息,包括物种、组织类型、细胞类型、数据类型、疾病状态、数据来源、平台、文章、期刊、年份和 PMID。用户可以查看数据集并根据“细胞类型”、“组织类型”、“数据类型”、“疾病状态”和“物种”自定义过滤器
2、浏览器界面中的“疾病状态”过滤器可以帮助用户快速定位感兴趣的疾病。用户还可以通过选择“数据类型”来过滤多种模态的样本,包括“scRNA-seq + scTCR-seq”、“scRNA-seq + scATAC-seq”、“ECCITE-seq + scTCR-seq + scBCR-seq”等。点击“样本 ID”后,可以进一步查看给定数据集的免疫细胞信息
5.4 在线分析工具
1、网站实施了 4 种免疫相关的在线分析工具,包括 “免疫反应富集分析”,“基因富集分析”,“整合分析” 和 “比较两个样本”
2、在 “免疫反应富集分析”工具中,scImmOmics 根据感兴趣的细胞因子输入,根据基因表达数据评估细胞因子活性和免疫细胞极化。具体而言,我们获得了细胞因子特征的 免疫词典,其中包括来自 1400 种细胞因子—细胞类型组合的 DEG。 R 包 homologene 用于跨物种同源基因转换。使用这些细胞因子特征的 DEG, 使用 AUCell 方法 对给定数据进行富集计算。免疫细胞中目标细胞因子的 AUCell 富集分数的分析结果使用多种可视化方法显示,包括(1)细胞和细胞因子富集分数;(2)细胞类型和细胞因子富集分数;(3)不同免疫细胞类型的细胞因子反应特性,如图 Fig2F
3、在“比较两个样本”分析工具中,用户可以选择两个感兴趣的数据集,scImmOmics 将显示有关每个数据集的详细信息。通过检查两个样本之间的异同,我们可以更深入地了解跨多个数据集或平台的免疫细胞特征、聚类模式和基因表达动态,如图 Fig2F
4、“基因富集分析” 允许用户输入感兴趣的基因组,并基于超几何检验灵活地评估其与不同免疫细胞类型的 DEG 的相关性,如图 Fig2F。输出表包含已识别免疫细胞的基本信息(例如样本ID、物种、组织类型、疾病状态、数据类型和细胞类型)、P值和调整P值
5、“整合分析” 允许用户选择感兴趣的scRNA-seq和scATAC-seq样本,scImmOmics将显示整合结果以及每个数据集的详细信息。此功能有助于探索基因表达和调控元件之间的联系,从而加深对免疫细胞状态和功能的理解
5.5 资料下载
rds 格式的数据以及每个样本的元数据均可在“下载”页面下载

6 案例研究
6.1 PBMC 数据集案例研究
1、在搜索页面输入“PBMC”,选择样本“PBMC_0001”进入详情页面。该样本标记为“scRNA-seq + scTCR-seq + scBCR-seq”,表明它包含从每个细胞捕获的三种不同类型的测序数据。Fig3A
2、如 UMAP 模块所示,免疫细胞被分为十大类。Fig3B
3、通过点击“表达”模块观察相应细胞类型中已知细胞标志物的表达水平。Fig3C
4、与现有的生物学知识一致,B 细胞簇表现出更高的 CD19 和 CD22 表达水平,这两者都是已知的 B 细胞标志物。将 CD19 和 CD22 鉴定为 B 细胞特异性 DEG , 这也验证了数据分析的可信度。功能富集分析进一步证实了这些DEG与B细胞的关联,因为它们在B细胞相关的GO term和通路中显著富集,例如“调节B细胞凋亡过程”和“B细胞受体信号通路”,Fig3D
5、在共表达模块中鉴定了几个关键基因,包括 IL7R、ACTB、JUND 。其中,IL-7R被认为是炎症免疫反应的标志物,Fig3E
6、“scBCR-seq”模块还帮助用户探索不同生物环境下B细胞受体(BCR)的多样性和克隆扩增,从而阐明其在免疫反应和疾病进展中的作用,Fig3G
7、为了进一步评估 scImmOmics 的实用性,我们使用来自“PBMC_0001”样本的 B 细胞 DEG 作为“基因富集分析”的输入,并设置了严格的阈值。结果显示,在含有 B 细胞的样本中显著富集,突显了 scImmOmics 平台捕获免疫差异和特异性的能力,如图 Fig3H。值得注意的是,文章也观察到其他组学样本中也显著富集,例如 CITE-seq 样本“PBMC_0016”和 scATAC-seq 样本“PBMC_0010”。点击样本 ID“PBMC_0016”进入详细页面后,我们注意到 B 细胞中 CD19 和 CD22 的蛋白质活性很高,这与来自 scRNA-seq 样本的基因表达水平一致。如图 Fig3I 和 Fig3J 。这种一致性增强了我们数据库的可靠性,表明将免疫细胞中的蛋白质活性和基因表达结合起来的可行性
8、为了更全面地了解 scImmOmics 在揭示免疫调控复杂性方面的能力和优势,选择上述 scRNA-seq 样本 “PBMC_0001” 和 scATAC-seq 样本 “ PBMC_0010” 进行了“整合分析” ,如图 Fig3K。在染色质可及性和基因表达数据中观察到了一致的调控特征,凸显了 scImmOmics 在结合多个组学维度方面的优势,如图 Fig3L。在“基因活性”模块中,CD19 在来自 scRNA-seq 和 scATAC-seq 样本的 B 细胞中也表现出更高的表达和基因活性分数,如图 Fig3M
9、总之,这些结果体现了表观基因组学、转录组学和蛋白质组学之间的一致性,凸显了scImmOmics 在多组学水平上研究复杂免疫机制的能力和优势

6.2 BoneMarrow 数据集案例研究
1、在搜索页面输入 “BoneMarrow” 后,搜索出了骨髓相关样本,包括 scRNA-seq 样本 “BoneMarrow_0002” 和 scATAC-seq 样本 “BoneMarrow_0011” ,如图 FigS1A 和 FigS1B
2、样本 ID “BoneMarrow_0002” 测量的是 scRNA-seq,在“表达”模块中,观察到相应细胞类型中已知标志物(CD86、CD33和CD69)和关键TF(IRF4)的高表达,如图 FigS1C 和 FigS1D 所示。这些结果与现有生物学知识一致,为 scImmOmics 后续发现的可靠性提供了支持
3、为了展示 scImmOmics 的应用潜力,结合多个组学维度,进一步深入研究了骨髓内免疫细胞的转录调控机制。具体而言,选择了 scATAC-seq样本“BoneMarrow_0011”来访问其详细页面(scRNA-seq 关注转录后的表达,而 scATAC-seq 聚焦转录前的染色质可及性,两者互补,用于全面理解基因调控)。点击“基因活性评分”模块后,观察到这些标记和 TF 的预期基因活性水平,与来自 scRNA-seq 样本的基因表达数据一致
4、为了阐明 scImmOmics 捕获多种组学关键调控信息的能力,点击了 scRNA-seq 样本页面中的“共表达模块”,发现大多数中心基因也被鉴定为跨多种细胞类型的 DEG,例如 SRGN、S100A9、HSP90B1 和 PRDX4。如图 FigS1H。它们在免疫系统中的具体功能已在文献中报道,证实了我们下游分析的可信度和实用性
5、通过整合染色质可及性信息(scATAC-seq样本页面上的“差异可及染色质区域”模块),进一步发现在相应的细胞类型中,多个 DAR 在这些枢纽基因附近富集,如图 FigS1I 。S100A9 作为单核细胞中 DAR 最接近的基因,与单核细胞的关键标志物共表达,包括 CD68,CLEC12A,CEBPD
6、使用 scRNA-seq 样本页的 “共表达模块” 和 “差异表达基因” ,进一步发现几个 POU2F2 共表达的枢纽基因,例如 HSP90B1 和 PRDX4,在浆细胞中存在显著差异表达。总体而言,scImmOmics 能够从转录和表观遗传学角度持续捕捉免疫细胞的特征,从而提供对免疫细胞功能和调控机制的全面综合的视角
7、对 scRNA-seq 样本进行了“免疫反应富集分析”,并在相应的细胞类型中发现了几种关键的免疫细胞因子,如图 FigS1K 。例如,白细胞介素 12 (IL-12)、白细胞介素 23 (IL-23)、干扰素 α (IFN-α) 和白细胞介素 1 β (IL-1β) 细胞因子在 cDC 中表现出不同的 AUCell 评分,这与它们在免疫调节和炎症中已确定的作用一致


7 参考文献
Yan-Yu Li, Li-Wei Zhou, Feng-Cui Qian, Qiao-Li Fang, Zheng-Min Yu, Ting Cui, Fu-Juan Dong, Fu-Hong Cai, Ting-Ting Yu, Li-Dong Li, Qiu-Yu Wang, Yan-Bing Zhu, Hui-Fang Tang, Bao-Yang Hu, Chun-Quan Li, scImmOmics: a manually curated resource of single-cell multi-omics immune data, Nucleic Acids Research, Volume 53, Issue D1, 6 January 2025, Pages D1162–D1172, https://doi.org/10.1093/nar/gkae985

共有 0 条评论