Proseg项目中的FOV数据丢失问题分析与解决方案
问题背景
在Proseg项目的实际应用中,用户报告了一个关于FOV(Field of View)数据丢失的严重问题。具体表现为:在输入数据包含334个FOV的情况下,处理后的输出结果中部分FOV的细胞多边形数据丢失,导致FOV编号混乱,进而影响下游分析。
问题现象
- 数据丢失:输入数据包含334个FOV,但输出结果中缺失了编号为65、176、224、307和315的FOV数据
- 编号混乱:丢失FOV后,剩余FOV的编号顺序被打乱
- 细胞数量差异:Proseg识别的细胞数量(134774)与Atomx软件报告的细胞数量(144636)存在显著差异
- 空间分布异常:某些FOV中,细胞仅分布在边缘区域,而Atomx中显示整个FOV都有细胞分布
技术分析
经过深入调查,发现问题的根本原因在于Proseg的初始化机制:
- 初始化依赖:Proseg依赖于Atomx提供的细胞核分割结果进行初始化
- 空初始化问题:在某些FOV中,由于未进行细胞核分配,导致这些区域被初始化为空
- 传播效应:初始化失败会连锁影响后续的细胞识别和转录本分配过程
解决方案
Proseg 1.0.6版本针对此问题提供了以下改进:
- 简化参数设置:新增
--cosmx参数,可直接处理AtoMx输出的转录本文件,无需额外设置比例或列参数 - 初始化选项:新增
--use-cell-initialization参数,允许使用细胞分配而非细胞核分配进行初始化,有效规避了原始问题 - 兼容性增强:优化了对不同质量RNA数据的处理能力,减少因转录本分布不均导致的数据丢失
实践建议
对于遇到类似问题的用户,建议:
- 升级至Proseg 1.0.6或更高版本
- 在处理CosMx数据时使用
--cosmx参数简化流程 - 对于RNA质量较差的样本,优先使用
--use-cell-initialization参数 - 在处理前后均进行FOV完整性检查,确保数据一致性
总结
Proseg项目中的FOV数据丢失问题揭示了生物信息学工具在实际应用中可能遇到的初始化依赖问题。通过版本更新,不仅解决了特定问题,还提升了工具的易用性和鲁棒性。这一案例也提醒我们,在处理空间转录组数据时,需要特别关注初始化策略对最终结果的影响。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



