这是2019年发表于nature子刊machine intelligence的一篇论文,作者是Tian Tian , Ji Wan, Qi Song and Zhi Wei。论文主要是提出了一个新的框架scDeepCluster,利用自编码器对单细胞RNA测序数据进行降噪分类,以及在二维平面图进行可视化。
- 论文模型图:
这是这是作者论文里展示的模型图,作者把图像处理领域应用的模型DEC和生物信息领域单细胞RNA测序数据降噪算法ZINB结合起来了,先用自编码器和ZINB损失结合对输入的单细胞RNA测序数据进行降噪并在自编码器中间层提取数据特征,然后在利用DEC的KL散度公示对潜在层数据特征进行分类。
2.激活函数
作者给出了自编码器解码器Decoder部分最后面三层的激活函数如下:
3.损失函数
对输入单细胞RNA测序数据进行降噪的公式是
其中负二项式分布的均值 (μ)、离散度 (θ) 和附加系数 (π)
在潜在层对数据进行聚类的公式是:
整个模型最开始用ZINB损失函数预处理,然后利用k-means算法在潜在层初始化特征得到聚类中心,对Encoder部分使用聚类公式。
4.实验结果和对比
作者把scDeepCluster在作者生成的数据集和实际单细胞RNA测序数据集应用,并选取了7个聚类算法作为对比模型,用ACC,NMI,ARI三个指标作为衡量标准,结合t-sne降维算法在二维平面对数据进行可视化比较。
5.总结
这篇论文对我来说很特别,是我入生物信息坑看的第一篇论文。
之后看了很多同方向的论文,现在回头再审视这篇文章。其实,论文总体来说创新性并不是特别高(主要是把前人发表的两篇论文移花接木),但这篇论文文笔很出色,而且绘图和对比实验结果图以及代码十分规范,还是具有很强的参考价值。(代码文章里有网址,作者用keras写的)
引用:
1.Tian, Tian, Ji, et al. Clustering single-cell RNA-seq data with a model-based deep learning approach[J]. Nature Machine Intelligence, 2019.
2.DEC:Xie J , Girshick R , Farhadi A . Unsupervised Deep Embedding for Clustering Analysis[J]. Computer Science, 2015.
3.ZINB:Eraslan G , Simon L M , Mircea M , et al. Single-cell RNA-seq denoising using a deep count autoencoder[J]. Nature Communications, 2019, 10(1).