单细胞多组学研究九:单细胞谱系示踪分析
Hello,各位好呀,
转眼八月已至,
立秋虽过,暑气未消。
大家科研忙碌之余,别忘了防暑降温哦。
今天继续为大家分享单细胞组学的研究方法。
希望对大家的科研工作有所助益!
按照综述《Single-cell lineage tracing approaches to track kidney cell development and maintenance》中综述并整合了单细胞谱系追踪的方法,将其分为四大类([CRISPR]/CRISPR-associated protein 9 [Cas9]-based、转座子方法、Polylox 方法以及天然条形码方法)。
CRISPR/Cas9-based 方法
该方法利用CRISPR/Cas9 系统在基因组特定位点产生可记录的“遗传伤痕”(genetic scars),这些变化会被稳定地传递给子细胞。
常用的设计是把一个人工合成的“条形码序列”插入基因组,然后在发育过程中利用Cas9 持续或间歇性切割该序列,产生不同的突变模式(如缺失、插入等)。
之后通过单细胞测序读取这些条形码,分析细胞之间的谱系关系。
2. Transposon-based 方法
利用转座子(如 Sleeping Beauty、PiggyBac)在基因组中随机插入含有条形码的序列。
每次插入事件的位点和条形码组成是独特的,因此可以作为细胞身份的遗传标记。
条形码可通过单细胞测序读取,用于谱系重建。
3.Polylox-based 方法
基于Cre 重组酶和多重 loxP 位点的组合重组技术(Polylox 系统)。
在一个人工构建的DNA 模块中,多个 loxP 位点以不同方向排列,当 Cre 重组酶作用时,模块会发生多种可能的重排,从而生成独特的 DNA 序列组合作为条形码。
这些组合在细胞分裂过程中稳定遗传,可用于谱系分析。
Native barcoding 方法
不依赖外源基因编辑,而是利用细胞天然存在的变异模式(如线粒体 DNA 突变、内源性转座子插入、单核苷酸变异)作为天然“条形码”。
在单细胞测序时直接检测这些遗传变异,推断谱系关系。
我们接下来看几篇最近发表的文章,看下单细胞中谱系示踪是如何运用的。
2025 年在《Cell Reports》发表的《Dual-nuclease single-cell lineage tracing by Cas9 and Cas12a》,文中介绍了新开发的DuTracer 系统,这是一种先进的基因记录系统,整合了 Cas9 和 Cas12a,用于单细胞水平的谱系追踪和转录组分析。其具有双核酸酶基因条形码和谱系追踪方法,能减少位点间缺失,在小鼠类胚体(EB)和神经中胚层类器官(NMO)分化中的应用,揭示了谱系层次结构,阐明了细胞命运决定中复杂的转录调节因子,如识别出转录因子Foxb1在神经中胚层祖细胞(NMP)命运决定中的作用,还能区分心脏细胞起源等。
DuTracer 是一种整合了 Cas9 和 Cas12a 两种正交 CRISPR 核酸酶的单细胞谱系追踪技术,其核心是通过 Tet-On 和 4-OHT-ERT 诱导系统分别调控两种核酸酶的编辑事件,减少传统单一核酸酶系统中因多位点同时切割导致的跨位点缺失,同时在细胞中插入含 14bp 整合条形码(intBC)的多拷贝靶标阵列以区分不同整合位点、提升条形码多样性;该系统包含双核酸酶质粒(含 Cas9-ERT2 和 Cas12a 编码区)、靶物质粒(mCherry 3'UTR 含 4 个靶标)及 gRNA 质粒(表达 sgRNA 和 crRNA)。

图 1 DuTracer 产生的位点间缺失最少
一、HEK293T 细胞中 DuTracer 的谱系重建能力评估(对应图 2)
实验设计:
构建含高拷贝记录位点的 HEK293T 细胞系,从 10 个细胞起始,先诱导 Cas12a 表达 22 天,再诱导 Cas9 表达 6 天(图 2A),通过单细胞 RNA 测序(scRNA-seq)和扩增子测序重建细胞谱系。
作者发现了:
谱系树深度提升:
优势克隆(含近 2800 个细胞)的谱系树平均深度达 5 层(图 2B)。通过模拟实验显示,在相同靶标数量下,双核酸酶系统(Cas9+Cas12a)比单核酸酶系统(仅 Cas9 或 Cas12a)能重建更深的谱系树(图 2E),因独立编辑事件可覆盖更多细胞分裂阶段。
靶标阵列拷贝数的影响:
细胞平均含 22 个整合条形码(intBCs,对应 88 个靶标),但谱系树深度在 10 个 intBCs 时达到平台期(图 2G)。Cas12a 因编辑速度快,在 10 个 intBCs 时饱和;而 Cas9 编辑较慢,在 22 个 intBCs 时饱和(图 2H、I),提示不同编辑效率的核酸酶需匹配不同靶标拷贝数。
突变模式验证:
多数插入 / 缺失(indels)发生在单个靶标内,位点间缺失极少,证实 DuTracer 减少信息丢失的有效性。

图2 HEK293T中DuTracer谱系重建能力评价
二、小鼠类胚体(EB)中 DuTracer 的条形码能力与心脏细胞起源区分
实验设计:
通过悬滴法诱导小鼠胚胎干细胞(mESCs)形成 EB,采用 6 种不同诱导策略(起始时间和持续时间不同),追踪 14 天内的分化过程(图 3B)。
作者发现了:
细胞类型与分化偏向:
EB 分化为 6 种主要细胞类型(原始生殖细胞样细胞、神经元、肠道细胞、心脏细胞等),中胚层(尤其心脏谱系)占主导(图 3C、D)。
条形码容量限制:
Cas12a 的条形码多样性(熵值)高于 Cas9(图 3E),且条形码熵与突变 UMI 分数呈强线性相关(图 3F),提示系统存在理论最大条形码容量。谱系树深度与条形码熵正相关(图 3I),且在 D8a 和 D10a 样本中最深(图 3H)。
心脏细胞起源区分:
通过单细胞信息增益(scInfoGain)分析,发现 cardiopharyngeal 中胚层(CPM)与心脏细胞的谱系关联性(图 4D),并基于克隆关系将心脏细胞分为第一心脏场(FHF)和第二心脏场(SHF)来源(图 4F)。SHF 来源细胞高表达特定基因(如 Isl1、Six1),且与 CPM 共享转录特征(图 4G)。

图3 DuTracer显示小鼠胚样体中受限的条形码容量

图4 谱系追踪区分心脏细胞的起源
三、小鼠神经中胚层类器官(NMO)中 NMPs 的谱系偏向与分子机制
实验设计:
从小鼠 ESCs 诱导神经中胚层祖细胞(NMPs),形成 NMOs,追踪早期 NMPs(D3)和晚期 NMOs(D15)的克隆关系(图 5B)。
作者发现了:
关键结果:
细胞命运偏向:
D3 以 NMPs 为主,D15 主要为脊髓神经细胞和中胚层细胞(如肌节、肌祖细胞)。克隆分析显示,NMP 克隆在 D15 表现出明显的神经或中胚层分化偏向(图 5G、H),例如某克隆含 900 个细胞,多数为肌节和肌祖细胞。
Foxb1 的作用鉴定:
通过比较神经偏向与中胚层偏向的 NMPs,发现 Foxb1 在神经偏向细胞中高表达(图 6E、F)。敲低 Foxb1 后,NMO 体积变小,神经基因(Pax3、Pax6)下调,中胚层基因(T、Foxc1)上调(图 6G、H),证实 Foxb1 促进 NMP 向神经谱系分化。

图5 谱系追踪揭示了NMP的命运偏差

图 6 DuTracer 有助于发现命运偏向的分子驱动因素
当然,也有一些文章直接利用了不依赖外源基因编辑的方法,在《Genome Biology》上发表的《Clonal expansion dictates the efficacy of mitochondrial lineage tracing in single cells》中,作者结合计算建模和单细胞组学,探究线粒体 DNA(mtDNA)变体作为谱系追踪标记的有效性。研究发现,多数亚群特异性变体(SSVs) 是初始细胞中预先存在的异质性,而非分裂过程中的新生突变;线粒体谱系追踪的效能高度依赖克隆扩增程度,在弱克隆扩增下区分真实谱系的能力有限,而在强克隆扩增(如疾病状态下的 T 细胞扩增、衰老个体的克隆造血)中,部分高频率且稳定的 SSVs 可有效标记细胞谱系;同时,研究引入谱系信息评分(LIS),助力在不同单细胞基因组数据中识别可靠的线粒体谱系追踪标记。
谱系信息评分(LIS)对线粒体谱系追踪应用的推动作用
在不同生物学场景中识别出的亚群特异性变体(SSVs)在标记细胞谱系时表现出显著不同的效能,因此迫切需要一种方法来识别真正具有谱系信息的线粒体 DNA(mtDNA)突变。基于模拟实验的发现,作者尝试引入一种定量指标,用于在单细胞基因组数据中筛选可靠的谱系信息性 mtDNA 变体。
显然,若一个 mtDNA 变体在某一细胞亚群中呈固定状态(变异等位基因频率 VAF 接近 100%,即亚克隆纯合性),它就能像核基因组变体一样长期稳定标记该亚群。但亚克隆纯合性非常罕见,因为大多数亚克隆变体在细胞内呈异质性状态。因此,作者定义了 “谱系信息评分(LIS)” 来量化 SSVs 作为可靠谱系标记的能力,计算公式为:

其中,Mean (VAF) 和 Var (VAF) 分别表示在检测到该变体的细胞中观察到的 VAF 平均值和方差。LIS 越高,表明该 mtDNA 变体作为细胞谱系标记的可靠性越强。为确定 LIS 的实用阈值,作者还绘制了精确度 - 阈值曲线(方法部分详述)。分析显示,在模拟数据中,当 LIS 阈值设为约 0.6(0.58)时,精确度可达 80%(图 4a)。超过该阈值后,精确度的提升幅度会大幅降低。
值得注意的是,高 LIS 的 SSV 定义亚群的祖先世代显著大于低 LIS 的亚群(图 2-1b),这表明 0.6 这一阈值确实可用于 SSVs 的分类。随后,作者通过调整参数(包括不同的 mtDNA 拷贝数(500、750、1000)、每碱基对每细胞分裂的 mtDNA 突变率(μ=10−8、5×10 −8或10−7)以及扩增强度(τ=0.1、0.5 和 0.9))生成更多模拟数据,以测试 LIS 阈值的稳健性。结果表明,当前的 LIS 阈值(0.6)在不同设置下均能达到较高的精确度(>80%),稳健性良好(图 4c)。因此,在后续的单细胞基因组数据分析中,作者采用 LIS≥0.6 来筛选优质 SSVs。
真实数据中 LIS 的应用验证
作者进一步将 LIS 应用于真实数据,以识别潜在的谱系信息性标记。首先分析了之前生成的单细胞多组学数据集,该数据集来自 4 名年轻供体(22-24 岁)的外周血单核细胞(PBMC),包含单细胞转录组、染色质可及性和 mtDNA 突变图谱。由于这些供体年龄较小,克隆造血(造血过程中典型的克隆扩增过程)的可能性较低,因此该数据集可作为弱扩增的实例。作者在单细胞水平检测 mtDNA 突变,每个细胞的线粒体基因组覆盖度约为 20×。随后,利用染色质可及性信息注释细胞类型,成功注释出 PBMC 中常见的各类细胞(图 2-1d)。作者识别出 SSVs 并计算每个 SSV 定义亚群的 LIS(图 2-1e)。由于该数据集缺乏真实谱系信息,作者通过检测每个 SSV 定义亚群内的细胞类型相似性来评估。在这些年轻供体样本中,未发现大量超过 LIS 阈值(0.6)的 SSVs,这与 PBMC 中较低的克隆扩增水平一致。值得注意的是,每个 SSV 定义的亚群内均观察到高度的细胞类型多样性(图 2-1e-g)。在所有 3 名供体中均观察到类似结果,但在年轻供体 4 中发现了少数高 LIS 的 SSVs(35 个 SSVs 中有 2 个),表明即使在年轻时也可能存在克隆扩增。
同时作者还收集了 2 名 70 岁以上老年供体(1 名男性和 1 名女性)的 PBMC 样本,因为克隆造血在老年人中更为常见。通过对这两名个体的 PBMC 样本进行了 mtscATAC-seq,并用单细胞染色质可及性注释细胞类型(图 2-1h)。在每个细胞的线粒体基因组平均覆盖度为 20-40× 的情况下,作者识别出 mtDNA 突变,并对两个样本进行了 SSV 分析(图 2-1i)。老年供体中识别出的 SSVs 的平均 LIS 高于年轻供体。作者还发现,来自老年供体 1 的 11 个 mtDNA 变体中,有 5 个可被选为优质 SSVs(LIS≥0.6,标为红色)。有趣的是,与低 LIS 的 SSVs 相比,可靠的 SSVs 表现出偏向性的细胞类型组成。例如,9077T>C 定义的细胞亚群中,CD8+T 记忆细胞占 89.3%;9223A>G 定义的细胞亚群中,NK 细胞占 66.0%(图 2-1j)。此外,9077T>C 或 9223A>G 亚群内的细胞在染色质可及性方面表现出显著更近的亲缘关系,表明这些 CD8+T 记忆细胞或 NK 细胞可能来自通过克隆扩增产生的共同祖细胞(图 2-1k)。对另一个独立样本(供体 2)的分析显示出与供体 1 相似的结果。总体而言,与年轻 PBMC 样本(图 2-1d-g)不同,这些结果强烈表明,在强克隆扩增背景下识别出的 SSVs(尤其是高 LIS 的 SSVs)是有前景的谱系标记,进一步支持了之前的模拟结果。
尽管这些结果与模拟一致,但仅利用染色质可及性的相似性来测试线粒体谱系追踪可能导致错误结论,因为在某些情况下(如谱系可塑性),染色质可及性的相似性与谱系关系可能不一致。因此,作者利用了另一个 Smart-seq2 数据集,其中包括从自身免疫疾病患者中分离的 T 细胞(图 2-1l)。我们再次利用 T 细胞受体(TCR)定义的克隆结构,评估线粒体谱系追踪在具有显著克隆扩增的免疫反应中的效能(图 2-1m)。作者首先在系统性红斑狼疮(SLE)患者样本 SLE232 和多发性硬化症(MS)患者样本 MS0816 中进行 mtDNA 突变检测。在两个样本中识别出的 SSVs 显示出多个高 LIS 的 SSVs,包括 SLE232 中的 3849G>A 和 1201A>G,以及 MS0816 中的 16362T>C(图 2-1n)。重要的是,通过比较了 SSVs 定义的亚群与 TCR 序列定义的亚群,发现这些 SSV 定义的亚群与 TCR 定义的亚群高度一致(图 2-1n-o)表明这些高 LIS 的 SSVs 可用于识别真实克隆。值得注意的是,只有这三个 SSVs(3849G>A、1201A>G 和 16362T>C)表现出低 TCR 多样性(通过归一化香农熵 NSE 量化),这再次表明高 LIS 的 SSVs 可作为可靠的谱系标记。结合模拟实验和多个单细胞基因组数据集,证明了 LIS 可作为在单细胞水平识别真正具有谱系信息的 mtDNA 变体的可靠指标。

图2-1 谱系信息评分(LIS)可准确评估亚群特异性变体(SSVs)的谱系追踪能力
好了,今天单细胞谱系追踪的研究就介绍到这里啦,基于上述的介绍,可以看到单细胞谱系示踪分析在研究单细胞发育、组织稳态或疾病过程中如何分化、迁移和转变命运都非常有应用潜力。乐备实作为蛋白检测服务专家,提供了一站式的实验流程,在实验和软件方法开发中都有丰富的经验。欢迎各位老师同学与我们联系合作。
共有 0 条评论