
数据分析
hyena_7
这个作者很懒,什么都没留下…
展开
-
snRNA-seq和scRNA-seq的区别和联系
https://zhuanlan.zhihu.com/p/436711174原创 2023-06-19 11:16:04 · 532 阅读 · 0 评论 -
Genotype Data (基因型数据) 是什么?
Genotype Data基因型数据原创 2023-05-19 18:43:24 · 558 阅读 · 0 评论 -
R语言:利用rhdf5包创建多组学.h5文件补充
R语言:将两种及两种以上组学数据转.h5文件转换方式。原创 2023-03-28 14:26:43 · 475 阅读 · 0 评论 -
R语言:读取loom文件,以及loom文件转成Seurat对象
使用satijalab开发的loomR读取loom文件,具体详见https://satijalab.org/loomr/loomr_tutorial。原创 2022-09-05 20:06:33 · 4205 阅读 · 1 评论 -
Found conflicts! Looking for incompatible packages. This can take several minutes. Press CTRL-C
今天在HPC上跑一个benchmark的方法,这个方法是利用conda env create -f environment.yml创建虚拟环境,然后我想在这个环境里面安装R环境conda install r,但是报错:Found conflicts!原创 2022-09-02 22:19:43 · 6473 阅读 · 0 评论 -
R语言:多个向量合并
【代码】R语言:多个向量合并。原创 2022-09-02 14:26:50 · 6394 阅读 · 0 评论 -
R语言:利用rhdf5包分别创建单组学,多组学.h5文件
创建好的.h5文件结构如下,和10X提供的.h5文件结构是一样的。原创 2022-09-02 10:04:09 · 1286 阅读 · 0 评论 -
如何下载Homo_sapiens.GRCh38.100.gtf.gz和Homo_sapiens.GRCh37.87.gtf.gz参考基因组注释文件
9.发现只有这种信息,先不要急,先点进去(grch37版本的gtf在官网上没给链接,需要我们自己找网址的规律)1.先去ENSEMBL官网:http://asia.ensembl.org/index.html,点击红框框。6.去下载GRCh37版本,回到首页点击红框框。10.找到37网址和38网址的区别。5.跳转到想要的版本地址,成功。3.没有我们想要的版本了。......原创 2022-08-26 21:28:15 · 4089 阅读 · 0 评论 -
R语言:Read10X()函数读取小数据集异常缓慢的问题
今天解决了个大问题!这样处理之后,一切问题迎刃而解,啥毛病都没有了,正常读取,非常快速!根据这段代码,我锁定了有问题的文件:genes.tsv。我灵机一动,那就换一种读法!原创 2022-08-12 21:09:45 · 2333 阅读 · 0 评论 -
R语言按照指定的顺序对dataframe进行排序
代码】R语言按照指定的顺序对dataframe进行排序。原创 2022-08-09 22:25:45 · 4423 阅读 · 0 评论 -
R语言:如何存储超大数据集
有的时候数据会以.RDS的格式被提供,这个时候就只能用R语言读取文件。如果遇到超大数据怎么把数据存储出来呢?可以发现这个数据特征数非常多,我要获取归一化以后的data矩阵。代码如下:save_npz_.py文件里面的内容:...原创 2022-06-09 16:59:46 · 1061 阅读 · 0 评论 -
R语言 foreach并行执行求两两基因之间的功能相似度
file里面是基因以及对应的功能,要计算两两基因间的功能相似度,普通for循环太慢了,故用foreach并行操作:library(GOSemSim)library(data.table)library(org.Mm.eg.db)library(foreach)library(doParallel)getDoParWorkers( ) #查看注册了多少个核,配合doMC package中的registerDoMC( )使用getDoParRegistered( ) # 查看doPar是否原创 2022-05-07 13:57:31 · 905 阅读 · 0 评论 -
CellphoneDB-细胞通讯软件
https://github.com/ventolab/CellphoneDBCellPhoneDB是一个公开的受体、配体及其在人类中相互作用的资料库。配体和受体的亚单位结构都包括在内,准确地代表了异体复合物。这一点至关重要,因为细胞与细胞之间的交流依赖于多亚单位的蛋白质复合物,这超出了大多数数据库和研究中使用的二进制表示。CellPhoneDB整合了现有的与细胞通讯有关的数据集和新的人工审查信息。CellPhoneDB获取信息的数据库有。UniProt, Ensembl, PDB, the IMEx c原创 2022-04-22 10:27:09 · 1651 阅读 · 0 评论 -
Maker gene的选择标准
1.在对应的细胞簇中,差异表达基因排名靠前的基因。2.基因具有很强的表达特异性,也就是在对应细胞簇中基因表达率高,而在其他簇中表达率低。3.有文献支持的基因,它要么是一个标记基因,要么是与细胞类型相关的功能基因。Liu Y, He S, Wang X L, et al. Tumour heterogeneity and intercellular networks of nasopharyngeal carcinoma at single cell resolution[J]. Nature comm原创 2022-04-22 10:11:06 · 637 阅读 · 0 评论 -
生物信息中的bin
bin:可以理解为参考基因组上的某段区间,用于将整条染色体切割成不同的区间,然后统计每个区间的数据信息。通常表示为染色体号,起始点,结束点。通常可以认为是窗口的意思。举例:Seurat中AddModuleScore()函数的详细解释是:将我们感兴趣的基因,抽出来,每个细胞算一下这些基因表达的平均值,背景基因的平均值就是找每个基因所在的bin,在该bin内随机抽取ctrl个基因作为背景,最后将得到的目标基因的平均值,背景基因的平均值两者相减就是每个细胞此基因集对应的score值。...原创 2022-04-22 10:06:31 · 3297 阅读 · 0 评论 -
富集分析GO KEGG GSEA的区别
GO和KEGG是基于不同的分类思想而储存的基因相关功能的数据库,富集分析就是一个把这些功能进行进行整合计算的算法,GO富集,就是研究基因的本质的,从三个层面,分别描述基因的分子功能(molecular function)、细胞组分(cellular component)、参与的生物过程(biological process)。如一个基因,她的MF可能是具有催化活性,她的细胞组分,也就是其在细胞中定位为细胞膜,参与的生物过程为蛋白质运输过程,这就是这个基因按照三种不同的分类方式进行的定义。KEGG和GO的区原创 2022-04-22 09:55:23 · 30180 阅读 · 5 评论 -
FindVariableFeatures(高可变基因)和FindMarkers(差异表达基因)的区别
FindVariableFeatures()–特征选择:高变异基因就是highly variable features(HVGs),就是在细胞与细胞间进行比较,选择表达量差别最大的基因,Seurat使用FindVariableFeatures函数鉴定高可变基因,这些基因在PBMC不同细胞之间的表达量差异很大(在一些细胞中高表达,在另一些细胞中低表达)。默认情况下,会返回2,000个高可变基因用于下游的分析,如PCA等。利用FindVariableFeatures函数,会计算一个mean-variance原创 2021-11-11 20:52:40 · 18031 阅读 · 1 评论 -
归一化、标准化和正则化
https://zhuanlan.zhihu.com/p/29957294原创 2021-07-21 10:44:25 · 132 阅读 · 0 评论 -
.h5文件转.csv文件
sudo apt-get install h5utilsh5dump -o anndata_demo.csv -y -w 4000 anndata_demo_h5.h5之后用pandas处理.csv文件即可原创 2021-06-01 20:51:56 · 3107 阅读 · 2 评论