- 博客(17)
- 问答 (1)
- 收藏
- 关注
原创 SCINA(Semi-supervised Category Identification and Assignment)算法
正态化和对数转换后的表达矩阵EijE_{i,j}Eij,其中ii1..Ii(i=1..I)ii1..I为基因代号;jj1..Jj(j=1..J)jj1..J为细胞代号待分配的细胞类型代号r1..Rr=1..Rr1..R,每一个细胞均有且只有一个细胞类型对应每个细胞类型的基因特征SrS_rSr,基因特征之间不鼓励重叠每个细胞对应的真实细胞类型命名为zj01Rzj01...R,后文为了简略可以用sss。
2025-01-03 11:50:27
623
原创 高斯关于正态分布的推导
文章目录定义假设目标求解矩阵形式定义多维形式本文是对网上高斯推导方式的总结,高斯推导的原文我并没有看过定义连续变量Xi,i=1..nX_i,i=1..nXi,i=1..n为独立同分布的随机变量,其样本数学期望为E(Xi)=Xi‾E(X_i)=\overline{X_i}E(Xi)=Xi,总体期望为μ\muμ;样本方差为D(Xi)D(X_i)D(Xi),总体方差为σ2\sigma^2σ2该变量的抽样误差(即Xi−μX_i-\muXi−μ)遵循分布NNN,其概率密度函数为fff假设
2025-01-02 16:56:01
661
原创 Github代码管理
选定一个父目录并打开,右键打开菜单,选择“open git bash here”(在指定目录下打开powershell/命令行也可以)然后按照指示填写description,权限选择Public,选择是否添加用于说明的markdown文档。license决定他人可以如何使用你的代码,具体选择可以参考。选择添加README.md文档,打开下面调整主分支名称的选项。首先创建一个新的repository,主分支为master。// 若无报错,此时打开github即可看见更新的代码文件。按系统位数自行下载即可。
2024-12-07 04:59:10
361
原创 传统转录组测序数据上游处理
输出结果为txt文件,每一行代表一个基因的信息,包括基因ID、染色体位置、起始和结束位置、链的方向(正链或负链)、基因长度以及一个与测序数据相关的值。例如,示例中第一行数据表示一个基因(ENSMUSG00000102693.2)位于染色体1上,从位置3143476到3144545,是一个正链基因,长度为1070。,效果非常棒,我按github上方法安装的binary文件,有点小麻烦,其他两种手段没有试过,具体详见参考链接3。下载,需要下载的是fasta文件和gtf文件。samtools使用conda安装。
2024-09-21 15:35:31
970
原创 linux(Ubuntu 24.04)安装R及Rstudio
按着链接做就没问题遇到的唯一一个错误提示解决办法参考不过执行完成后有个插曲这个不是报错,可以继续执行。
2024-09-21 12:15:41
864
原创 Hisat2报错“libstdc++.so.6: version `GLIBCXX_3.4.26‘ not found”
使用conda升级对应环境中的libstdcxx包。此时使用hisat2 --help则正常输出。
2024-09-20 12:12:41
196
原创 关于sc.tl.leiden报错“ValueError: high is out of bounds for int32”
原因是因为我用的window64位平台和Linux平台的c语言long的取值范围不同,在win64位下是int32。下有一个作者提供了解决方案,可以参考他的commitment。承诺会着手修复这个问题,但是我等不了。
2024-05-05 14:46:15
766
2
原创 DeLong检验
Delong检验理论背景 假设一个NNN个个体的样本进行了一个测试,以预测感兴趣的事件或确定是否存在疾病,并且该测试基于一个连续值诊断变量。我们将遵循以下惯例,即假设测试变量的较高值与感兴趣的事件相关,例如,阳性疾病状态。也假设它可以通过独立于测试的方法来确定。 样本中中有mmm个人真正经历了这个事件或有了这个条件,该组别用C1C_1C1表示,让没有这个条件的n(=N−m)n(=N-m)n(=N−m)名个体的组用C2C_2C2表示。设Xi(i=1,2,...,m)X_i(i = 1,2,...
2024-02-14 23:49:31
2891
1
原创 python读取浮点图像
结果是图像数据格式的问题,cv2.imread只能读取为无符号8位整数,如果是较为细微的图像差别会直接被取整抹掉,所以必须使用读写浮点图像的手段。我的目标是把nii格式的图像读取出来进行图像处理,过程中发现双边滤波结果和原图完全一样,找了一天bug都感觉没头绪。如果为了保存处理过程图像,可以直接使用numpy.save()保存为npy格式。
2023-12-09 12:43:33
483
原创 cv2.adaptiveThreshold函数类型不匹配解决
解决方法是读取时将imread函数的flags置为0,而且注意plt.imshow和cv2.imshow两种函数的色彩模式不同,如果为了检验结果,尽量用后者,否则可能会掩盖问题。5 0.1) #偏移值调整量,用均值或高斯计算阈值后,加这个值就是最终阈值。我在输入图像后甚至使用了img.astype(np.uint8)也无效,使用matplotlib.pyplot的imshow函数查看后甚至依然是灰度图。
2023-12-08 20:28:22
483
原创 roc_auc_curve()和auc()结果不一样的问题
第一种的参数事实上是错的,第二个不应该是预测标签而应该是预测分数,但是由于score的范围在0-1之间,这种输入错误不会收到函数的报错,而且在某些情况下(例如模型性能很好或很差)两者计算结果可能非常接近,可参考下图。第一种在我自己的数据上的结果只有大约0.55,而第二种结果有0.70。发现了一个问题,以下两种计算auc的结果不一样。把第一种计算方法略微修改一下,结果就一样了。
2023-12-03 15:27:09
752
原创 opencv配置心得
以下面的代码块为例,这里include就是在上图中opencv2文件夹下寻找opencv.hpp文件(图上我没放,但其实是有的),所以说符合条件的就我的这个文件夹;同理还有lib文件夹里注意有没有opencv_worldXXXd.lib。其实路径不重要,重要的是看路径下有哪些东西。按上述的指示把一二三四走完。顶端工具栏:项目-->属性。五、依次更改以下几个部分。
2023-09-13 00:53:57
72
原创 R语言_rms包_datadist函数_学习笔记
datadist函数的设计目的是对预测函数所基于的原始数据进行统计学上的总结,以避免重复读取原始数据。Discription对于给定的一组变量或数据框,确定影响和绘制ting范围的变量摘要、要调整的值,以及Predict, plot.Predict, ggplot.Predict, summary.rms, survplot, 和nomogram.rms的总体范围。如果datadist在进行数据拟合之前即被调用且所指向的结果对象已用options(datadist="name") 语句指定,使用..
2021-10-20 17:48:53
14101
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人