- 博客(154)
- 收藏
- 关注

原创 服务器上配置jupyter notebook,浏览器就是打不开解决方案
已经按照教程下载和配置好了jupyter notebook,在此推荐两个不错的教程:https://blog.youkuaiyun.com/qq_39165421/article/details/110874846https://blog.youkuaiyun.com/qq_42137895/article/details/104283459使用后台运行命令:nohup jupyter notebook --port 9999 2>&1 &然后在当前会话属性里面添加转移规则,这里的端口号是之前文件
2021-03-18 19:29:59
3702
3
原创 测序名词解释
假设对一段2000 bp(G:测序目标区域大小)的目标序列进行单端测序,得到1000条reads(N:读段数目),每条reads 200bp(L:读段长度),测序后把所有的reads比对到目标区域后,若2000bp的目标区域中有1800bp的位置至少有1个read覆盖到,而剩余的200bp没有任何read覆盖到,如果RNA-seq的目标是发现新的稀有的转录本,如noncoding RNA或mRNA新的可变剪接,考虑到这些转录本的低表达和建库方案产生的偏差,估计需要超过400 M reads。
2023-12-16 18:32:41
1480
原创 HPC运行JAVA包:Error: Could not find or load main class -Xmx2g
报错:Error: Could not find or load main class -Xmx2g。在HPC中module load java/11.0.13后。
2023-08-06 16:00:38
456
原创 非常好用的往github上传文件的教程
https://blog.youkuaiyun.com/sinat_20177327/article/details/76062030
2023-06-23 21:18:36
273
原创 TWAS论文中的名词解释 (持续更新)
The alternative hypotheses:备择假设。The null hypotheses:零假设。
2023-05-22 11:30:26
206
原创 连锁不平衡以及连锁不平衡衰减
连锁不平衡粗俗的说就是:这几个基因耍流氓,喜欢抱团遗传,不再随机。而连锁不平衡衰减是指在基因组上,随着物理距离的增大,两个连锁的的等位基因的连锁程度不断减小。
2023-05-20 15:44:51
287
原创 单倍型的相关概念
单倍型:单倍体基因型的简称。遗传学上指在单条染色体上一系列遗传变异位点的组合。同源染色体:同源染色体,一个来自母本,一个来自于父本。
2023-05-20 14:45:34
749
原创 eQTL是什么?
表达数量位置的基因座,它指的是染色体上一些能特定调控mRNA和蛋白表达水平的区域,其mRNA/蛋白质的表达水平量与数量性状成比例关系。定义:对于多个个体在全基因组范围的遗传变异多态性(SNP)进行检测,获得基因型,将基因型与表型进行统计学分析,根据显著性等关系筛选出最有可能影响该性状的遗传变异,目的是通过这种方法找出与变异相关的基因。eQTL分析的本质是以全部的DNA变异位点为自变量,轮流以每种mRNA表达量为因变量,用大量的个体数据做样本进行线性回归,得到每一个SNP位点和每一个mRNA表达量间的关系。
2023-05-20 10:47:27
7530
原创 怎么解决github中的README的格式问题
一、标题写法:例如:二、编辑基本语法1、字体格式强调我们可以使用下面的方式给我们的文本添加强调的效果强调 (示例:斜体)强调 (示例:斜体)加重强调 (示例:粗体)加重强调 (示例:粗体)特别强调 (示例:粗斜体)特别强调 (示例:粗斜体)2、代码3、代码块高亮4、表格 (建议在表格前空一行,否则可能影响表格无法显示)5、列表6、换行(建议直接在前一行后面补两个空格)7、引用
2023-03-22 21:52:25
655
原创 统计模型——贝叶斯统计模型,负二项分布
贝叶斯学派不太关心正确的参数到底是多少,而是需要通过获取的数据加上先验知识得出后验概率进行统计推断。比如想推断学校的男女比例,随机抽样了10个人,其中2男8女,频率学派会得出男生占20%的结论,因为样本就是证据,有且仅有的证据。当然,如果样本量更大,那肯定更接近于真实值,但在现实生活中,有时候样本的获取成本非常高,或者因为各种原因无法获取。贝叶斯方法则会考虑先前经验,比如前几年的调查数据,或者专家知识(这是一所理工大学,男女比例1:9),这些都作为先验概率参与后验概率的计算。
2022-11-02 13:48:54
847
原创 R语言:读取loom文件,以及loom文件转成Seurat对象
使用satijalab开发的loomR读取loom文件,具体详见https://satijalab.org/loomr/loomr_tutorial。
2022-09-05 20:06:33
4192
1
原创 Python:SyntaxError: multiple statements found while compiling a single statement
若是python环境里面不可以多行复制运行,报错:SyntaxError: multiple statements found while compiling a single statement。解决方法:退出当前python环境后,执行。
2022-09-04 11:27:41
9415
原创 RuntimeError: Attempting to deserialize object on a CUDA device but torch.cuda.is_available() is F..
真是乌鱼子,因为是在另一个服务器上写的代码,就忘了加gpu参数了,以后不可以犯这种错误了。
2022-09-03 13:57:48
2632
原创 Found conflicts! Looking for incompatible packages. This can take several minutes. Press CTRL-C
今天在HPC上跑一个benchmark的方法,这个方法是利用conda env create -f environment.yml创建虚拟环境,然后我想在这个环境里面安装R环境conda install r,但是报错:Found conflicts!
2022-09-02 22:19:43
6470
原创 Error in py_run_file_impl(file, local, convert) : ModuleNotFoundError: No module named ‘igraph‘
此时我已经知道了我应该往哪个虚拟环境里面安装igraph包,就是 /public/home/hpc/.local/share/r-miniconda/envs/r-reticulate/py_module_available(“igraph”)#返回了False。use_condaenv(“r-reticulate”)#指定虚拟环境。即可,继续提交我的R任务,成功出结果!...
2022-08-29 11:25:01
1994
3
原创 如何下载Homo_sapiens.GRCh38.100.gtf.gz和Homo_sapiens.GRCh37.87.gtf.gz参考基因组注释文件
9.发现只有这种信息,先不要急,先点进去(grch37版本的gtf在官网上没给链接,需要我们自己找网址的规律)1.先去ENSEMBL官网:http://asia.ensembl.org/index.html,点击红框框。6.去下载GRCh37版本,回到首页点击红框框。10.找到37网址和38网址的区别。5.跳转到想要的版本地址,成功。3.没有我们想要的版本了。......
2022-08-26 21:28:15
4069
原创 R语言:Read10X()函数读取小数据集异常缓慢的问题
今天解决了个大问题!这样处理之后,一切问题迎刃而解,啥毛病都没有了,正常读取,非常快速!根据这段代码,我锁定了有问题的文件:genes.tsv。我灵机一动,那就换一种读法!
2022-08-12 21:09:45
2329
原创 Cell Hashing简述
CellHashing和CITE-seq的测序原理基本一样,只是换了一个应用场景。它解决的问题是如何将不同样本的细胞混起来测序(便宜),测完了还能区分哪个细胞来源于哪个样本,这样做也减少了批次效应。...
2022-07-26 20:03:06
580
原创 积累:marker gene(持续更新)
S100A4(amarkerofmemoryTcells)SELL(amarkerofnaiveTcells)CiteFuseenablesmulti-modalanalysisofCITE-seqdataBioinformatics,2020。
2022-07-26 17:44:25
700
原创 记录安装适配Monocle3的Cicero的血泪全过程
目标:想使用cicero计算一下gene activity scores,根据cicero文档https://cole-trapnell-lab.github.io/cicero-release/docs/用这两句命令,安装cicero成功安装,然后按照教程跑pipeline,注意此时安装的cicero支持的是Monocle2版本运行到降维这步的时候,开始报错:后来知道是Monocle2的问题,我的数据集细胞数7万以上,Monocle2跑不了这么大的数据集,我决定安装适配Monocle3版本的ci
2022-07-06 20:51:41
1824
原创 scRNA-seq的fastq文件处理流程——持续更新
获得了一批新的scRNA-seq的fastq.gz文件,每个样本的数据形式为:我打算使用10X cellranger处理fastq.gz文件,下载及安装方式在官网:https://support.10xgenomics.com/single-cell-gene-expression/software/downloads/2.0这个网址写了10X cellranger处理fastq.gz文件的命名规则https://support.10xgenomics.com/single-cell-gene-expr
2022-06-29 10:24:01
2831
原创 单细胞聚类方法SC3疯狂报错——Error in [.default(clusts, , paste0(“sc3_“, hash.table[i, 1], “_clusters“))
SC3 - consensus clustering of single-cell RNA-Seq data这是scRNA-seq聚类方法里面比较经典的聚类方法,在跑数据集的时候,几个一千多个细胞的小数据集没有报错,但是运行一个5000+细胞以上的数据集时,在这步:疯狂报错!!!就很无语,难道这种经典方法我都跑不通嘛!到了推理原因的时刻了First,小数据集上我能跑通,所以问题不是在这个方法上,应该是因为数据集大小的改变,哪些参数不合适了,我去看了SC3的手册:https://bioconducto
2022-06-18 13:52:35
636
原创 服务器ubuntu 18.04更新RStudio Server(r 4.2.0 rstudio server 2022.02.2+485 )
因为Ubuntu中自动把r升级到了 4.2.0版本,RStudio中的一些包在使用的时候会报错,比如跑cisTopic的时候:为了解决这个问题,要将Rstudio Server一起升级,解决方案如下:使用管理员账号安装的教程看:https://blog.youkuaiyun.com/watermel__/article/details/120724232?ops_request_misc=%257B%2522request%255Fid%2522%253A%252216554425671678218468187
2022-06-17 13:09:50
1713
原创 聚类教程:cisTopic——来自单细胞表观基因组学数据的顺式调控主题的概率建模
之前运行这步的时候报错了如下:后来发现原因是Ubuntu自动把R包更新到4.2版本,但是Rstudio版本没有更新,更新Rstudio即可,更新Rstudio的教程看此教程:。
2022-06-17 13:00:22
859
原创 在Ubuntu虚拟环境里安装低版本的R
因为一个R包的需要,R环境必须小于3.5,就新建个虚拟环境:看看有哪些版本的R可以下载:选择r 3.4.3安装:很完美,R从4.2降到了3.4
2022-06-16 14:12:33
615
2
原创 R语言:如何存储超大数据集
有的时候数据会以.RDS的格式被提供,这个时候就只能用R语言读取文件。如果遇到超大数据怎么把数据存储出来呢?可以发现这个数据特征数非常多,我要获取归一化以后的data矩阵。代码如下:save_npz_.py文件里面的内容:...
2022-06-09 16:59:46
1058
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人