Proseg工具处理CosMx空间转录组数据时坐标缩放参数的影响分析
问题背景
在使用Proseg工具处理CosMx空间转录组数据时,研究人员发现输入文件中的转录本数量与程序实际读取的数量存在显著差异。具体表现为:输入文件包含约2200万条转录本记录,但Proseg工具仅处理了约1100万条,数量减少了一半。
关键发现
经过深入分析,发现问题根源在于--coordinate-scale参数的设置。当使用默认值1时,会导致大量转录本未被处理;而将该参数调整为CosMx数据推荐的0.12时,程序能够正确处理接近2200万条转录本。
技术原理
--coordinate-scale参数在Proseg工具中扮演着重要角色,它主要影响以下两个方面:
-
空间坐标缩放:该参数用于调整输入数据的坐标单位与实际物理距离的换算比例。对于CosMx平台数据,推荐使用0.12的比例因子,这与该平台特定的空间分辨率相关。
-
转录本过滤机制:不恰当的坐标缩放会导致程序错误地计算转录本与细胞多边形之间的距离,可能将大量有效转录本误判为"离细胞过远"而被过滤掉。
最佳实践建议
基于这一发现,我们建议在处理CosMx数据时遵循以下准则:
-
参数选择:始终使用
--coordinate-scale 0.12来处理CosMx平台数据,这是该平台的标准配置。 -
数据验证:在处理前后都应检查转录本数量,确保数据完整性。可以使用
zcat full_transcripts.csv.gz | wc -l命令快速验证输入文件中的记录数。 -
并行处理:合理设置
--nthreads参数(如示例中的14线程)可以显著提高处理效率,但需根据实际硬件资源调整。 -
高级参数:
--voxel-layers参数(示例中设为15)可用于控制三维体素化处理的深度,但应注意其对最终结果的影响。
结论
Proseg工具作为空间转录组数据分析的重要工具,其参数设置对结果质量有着决定性影响。特别是对于不同平台数据,必须使用相应的推荐参数配置。通过正确设置--coordinate-scale等关键参数,可以确保数据处理的完整性和准确性,为后续分析提供可靠基础。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



