3.1.3 表达矩阵生成:UMI 计数与重复序列去重 在单细胞转录组学的上游处理链条中,表达矩阵生成绝非一个简单的“读取-计数-输出”流水线;它是一场精密的分子考古——我们试图从海量、嘈杂、高度冗余的测序读段(reads)中,还原出每个细胞在捕获瞬间真实表达的 mRNA 分子数量。而在这场考古的核心战场,UMI(Unique Molecular Identifier)计数与重复序列去重,正是决定整座数据金字塔是否稳固的基石。它不只关乎数字的多与少,更关乎生物学信号的保真度、技术噪声的压制能力,以及后续差异表达、轨迹推断、细胞类型注释等所有下游分析的可信边界。 你是否曾困惑:为什么同一个基因在不同细胞中看似一致的 reads 分布,经过 UMI 去重后却剧烈分化?