Sentieon 项目文章 | 通过深度测序对血浆中游离线粒体 DNA 进行定量和表征

关键词:cf-DNA;分子模式(DAMP);生信分析;
引言
血浆中的线粒体DNA损伤相关分子模式(mtDNA DAMPs)与多种疾病的发病机制和预后密切相关。目前主流的qPCR检测方法存在诸多局限性,如易受核基因组线粒体插入序列干扰、检测范围有限等问题。
虽然全基因组测序可能克服这些局限,但血浆中mtDNA含量过低难以达到理想测序深度。
为此,研究团队开发了一种新型RNA靶向捕获方法,结合WGS和生物信息学分析,旨在实现对血浆mtDNA的准确定量、片段分布分析、序列来源识别及变异检测。并在四名重度创伤患者的血浆样本中进行了验证,为血浆mtDNA的深入研究提供了新的技术手段。

图1 文献介绍
今天的文献解读专栏给大家带来的是2021年发表在Research Square期刊的:“Quantitation and Characterization of Cell-Free Mitochondrial DNA in Plasma by Deep Sequencing”。
材料与方法
样本量与样本来源
研究获得南阿拉巴马大学机构审查委员会批准。纳入4名创伤中心STICU的患者,入选标准为年龄≥18岁且入住STICU时损伤严重程度评分(ISS)≥15。四人均为男性,年龄19-42岁。其两名患者接受大量输血(>15U),两名ISS相似的患者无需输血。还将来自生物样本库的mtDNA低于qPCR检测限或存在的mtDNA为全长(未片段化)的血浆样本用于片段长度比较。
血浆处理与DNA提取
血浆样本采用700g(4℃)离心5分钟处理,随后使用QIAamp DSP DNA Blood Mini Kit(Qiagen)从200μl血浆中分离DNA,最终储存于75μl洗脱缓冲液中(-80℃)。
文库构建与mtDNA富集
研究团队使用KAPA Hyper Prep Kit进行DNA文库构建。使用1.5X AMPure XP磁珠(Beckman Coulter)纯化DNA后进行11个循环的文库扩增,再次纯化并储存于30μl EB中。为富集线粒体DNA,采用MyBaits Human Global Panel mtDNA进行捕获,将7μl文库与RNA mtDNA探针在55℃杂交40小时,后用Dynabeads MyOne Streptavidin C1捕获RNA-DNA杂交产物。后经8个循环PCR富集,用KAPA Library Quantification kit进行定量,并通过Bio-Rad Bioanalyzer分析文库质量。
测序与数据预处理
第一批两个样本使用HiSeq2000采用2x50bp双端测序,平均读数达1.03×108±7.46×106;第二批两个样本在HiSeq2500完成,同样采用2x50bp双端测序,平均读数为3.14×107±8.70×106。原始数据首先通过Cutadapt v2.10去除接头序列,然后使用Sentieon v201911.01的BWA-MEM与GRCh38参考基因组进行比对,比对后的读段通过"sentieon util sort"进行排序并转换为bam格式。
比对流程模拟验证
为评估NUMT对比对流程准确性的影响,研究团队采用读段模拟的方法进行验证。首先使用Bedtools v2.26.0在非多态性NUMT的上下游各添加100bp侧翼区域,并合并100bp内的区间,得到699个剩余区间。基于实际样本的片段大小参数,使用Art Illumina Q Version 2.5.8模拟读段,采用HiSeq 2500错误模型,设置读长50bp,插入片段大小100±25bp。
对线粒体序列、合并的NUMT序列和已知的多态性NUMT序列进行读段模拟,覆盖度均设为1,000。通过计算假阴性误差百分比(预期丢失的线粒体读段数量与实际覆盖100个读段位点之比)和假阳性误差百分比(NUMT读段错误比对到线粒体基因组的数量)来评估比对准确性。
NUMT分析与变异检测
使用NCBI Nucleotide Blast 2.6.0在GRCh38基因组中鉴定NUMT,参数设置为:以人类线粒体序列作为查询序列,词长度9,奖励值1,惩罚值-1,开放间隙2,延伸间隙2。共识别出1521个NUMT,总覆盖长度达1.03×105bp。
变异检测采用Bcftools 1.11-19进行,设定最大测序深度1000,仅考虑碱基质量≥20且比对质量≥20的位点。对于高覆盖度位点(≥500×)和中等覆盖度位点(10-500×)分别制定变异判定标准,所有变异通过NCBI变异服务API添加dbSNP标识符。
数据分析与统计方法
研究团队使用JMP Genomics 8.0进行Spearman等级相关分析,数据可视化通过Pythonv3.7.9环境下的Pandas、Numpy、Matplotlib和Seaborn等库完成。
研究结果
研究为建立一个分析流程,全面表征细胞游离血浆mtDNA DAMPs,最终实现将mtDNA DAMPs作为疾病预后的生物标志物。而首要挑战要克服分析低丰度、高度片段化的mtDNA相对于数量更大的核DNA池的限制。
在实验分析中,首先从患者200 µl血浆中提取总DNA,获得平均浓度为221 ± 193 ng/µl的DNA样本。与正常人血浆中DNA片段(>7000 bp)相比,创伤患者的血浆DNA呈现高度片段化特征,大多数约为150 bp或更短。为克服技术难题,研究采用RNA靶向捕获富集试剂盒。通过对四个样本进行WGS和靶向捕获的比较分析,发现富集样本中mtDNA的序列覆盖度显著提高。但在分析中发现了数量异常大的异质性,这需进一步探讨NUMTs的影响。

图2 正常人类受试者与创伤患者的差异比较 a) 通过生物分析仪测定正常人和创伤患者血浆中游离DNA片段大小。正常受试者血浆含有较长片段,而创伤患者血浆含有明显较小的DNA片段。 b) 展示富集前后血浆DNA片段与线粒体基因组的比对情况,注意到多个异质性变异。
模拟分析显示线粒体基因组中存在14个与核基因组完全同源的区域,其中12个长度超过100bp,这些区域主要集中在染色体1附近。而在线粒体基因组9.5-16.5kb区域中NUMT污染相较于其他区域明显较少。

图3 模拟mtDNA和NUMT序列读段分析 a) 展示与线粒体基因组比对的模拟mtDNA和NUMT读段,发现14个无法区分的位点。 b) 展示NUMT和线粒体基因组序列高度同源重叠区段。 c) 以箱线图展示不同映射质量下的假阴性和假阳性百分比。
为提高分析准确性,研究团队将序列数据重新比对到完整的GRCh38人类参考基因组。结果显示,比对到线粒体基因组的NUMT序列总量超过了真实mtDNA序列的比对量。通过斯皮尔曼等级相关分析评估序列捕获富集效果,发现配对的富集和未富集样本之间相关性较差,而同一患者不同时间点的富集样本间相关性较高。与WGS相比,该富集和比对策略实现了1488 ± 1045(平均值±标准差)倍的富集。

图4 靶向捕获富集与NUMT排除分析 a) 展示生物信息学处理后mtDNA片段的富集情况。 b) 分析单个大量输血患者输血前后的片段覆盖度相关性。 c) 比较三个患者富集前后的富集效率。
通过分析138个已知插入位点的平均覆盖度,研究团队发现了13个潜在的多态性NUMT位点,其中3个NUMT基因型得到确认。这些发现表明,RNA靶向探针不仅可以捕获mtDNA,还能捕获多态性NUMTs及其附近的核DNA序列。通过检测这些区域的测序覆盖度,可以识别患者特异性的多态性NUMTs。

图5 多态性NUMT插入位点分析 a) 展示靶向捕获如何导致多态性NUMT侧翼区域的测序。 b) 展示两个患者中特定多态性NUMT的差异。 c) 展示读段部分比对到核基因组,部分比对到线粒体基因组的情况。 d) 分析多态性NUMT侧翼区域与线粒体基因组的同源性。
Sentieon 软件团队拥有丰富的软件开发及算法优化工程经验,致力于解决生物数据分析中的速度与准确度瓶颈,为来自于分子诊断、药物研发、临床医疗、人群队列、动植物等多个领域的合作伙伴提供高效精准的软件解决方案,共同推动基因技术的发展。截至 2023 年 3 月份,Sentieon 已经在全球范围内为 1300+用户提供服务,被世界一级影响因子刊物如 NEJM、Cell、Nature 等广泛引用,引用次数超过 700 篇。此外,Sentieon 连续数年摘得了 Precision FDA、Dream Challenges 等多个权威评比的桂冠,在业内获得广泛认可。
讨论

图6 文献讨论
UMT分析策略
研究提出了区分mtDNA和NUMTs重叠信号的策略。NUMTs包括参考基因组中已收录的和多态性两种类型。通过序列变异和NUMT邻近区域的覆盖度来处理这两类NUMTs,研究发现多态性NUMTs在总mtDNA DAMP池中只占很小且稳定的比例。
测序特征分析
深度测序方案使研究能够确定血浆mtDNA DAMPs的片段长度分布和异质性特征。即使在样本数量有限的情况下,也能检测到平均片段大小随患者和入院后时间的变化。研究还检测到多个随时间变化的异质性变异,表明无细胞血浆mtDNA中的异质性特征可能发展成为器官功能障碍的新型标志物。
研究局限与发现
尽管患者数量有限制约了研究的生物学意义,但研究仍发现输血和非输血患者之间存在显著差异,包括平均mtDNA丰度的变化。研究还注意到NUMT覆盖度在患者间相对一致,可作为标准化mtDNA DAMP丰度的新颖因素。
总结
本研究提出了一个新的实验和分析工作流程,相比当前方法能够以更高的准确性和敏感性评估血浆无细胞mtDNA DAMP的特征。研究结果强调了在进行mtDNA定量分析时必须考虑NUMTs的影响,并采用适当的分析策略来确保结果的准确性。
共有 0 条评论