- 博客(63)
- 资源 (2)
- 收藏
- 关注
原创 生信刷题之ROSALIND——Part 5 (PERM, PRTM, REVP)
Rosalind是一个通过解决问题来学习生物信息学和编程的平台。
2023-05-12 20:57:41
499
原创 生信刷题之ROSALIND——Part 4 (MPRT, MRNA, ORF)
Rosalind是一个通过解决问题来学习生物信息学和编程的平台。
2023-05-07 14:23:22
1342
原创 RNA-seq——上游分析练习2(数据下载+trim-galore+hisat2+samtools+featureCounts)
本文是转录组上游分析的实战练习。
2022-12-18 18:57:38
4486
原创 RNA-seq——六、差异基因富集分析(画一个上下调基因分别富集的双Y轴柱状折线图)
写在前面——书接上回,通过绘制差异基因火山图,能够看出上下调基因的分布情况。这次我们通过对差异基因的GO富集分析,可以看到涉及到的具体通路,更进一步的了解实验变化。本文使用的数据集为私有数据集,不过绘图并不难,弄懂原理之后,套用在自己的数据上即可。
2022-09-12 14:36:52
5447
原创 RNA-seq——五、根据差异基因画火山图、在火山图上标记基因名
写在前面——之前写的RNA-seq(一到四)是根据别人文章中提到的数据进行一系列分析的,但是找公司做的单细胞测序,一般不需要自己进行数据清洗之类的操作,公司会直接给个clean_data,以及所有的你需要的文件,或者一个云系统的账号。所以我们最终要做的就是根据这些数据,来绘制达到文章发表级别的图,来说明我们实验想表达的事情。
2022-09-11 20:25:19
6833
3
原创 RNA-seq——四、根据序列比对结果筛选差异基因
写在前面——经过前面的一系列分析,我们得到了几个counts数据,接下来就需要根据这些数据来进行分析。本文使用Rstudio,从序列比对结果中筛选出差异基因,目的是(根据不同基因的表达量)找出实验组与对照组的差异。本文使用的数据见。
2022-09-11 19:09:19
3394
原创 RNA-seq——上游分析练习(数据下载+hisat2+samtools+htseq-count)
写在前面——之前使用的数据是单端测序,但是现在的数据基本都是双端测序。所以又找了个双端测序的例子来练习。之前在单端测序数据中,因为参考基因组注释文件找的不对,所以reads计数没有做好。这次数据质量不错,所以省略了质控和清洗,直接进入主题。由于租的服务器是2核+8G的,所以在生成sam文件和sort以及htseq-count都花费了大量的时间(四个样本集整整跑了将近一整天)。不过最后结果算是复现出来了,甚是欣慰。
2022-08-25 17:32:40
2108
原创 RNA-seq——三、使用Hisat2进行序列比对
Jimmy老师主要演示了四种比对工具,分别为hisat2、subjunc、bowtie2、bwa。除了subjunc能够直接生成bam文件外,这些软件的用法都很相似。需要根据自己的需求来选择对应的软件。这里以使用hisat2为例。
2022-08-22 19:43:44
4425
原创 RNA-seq——一、Linux软件安装
在安装软件时,优先考虑conda安装。conda使用起来不仅方便快捷,而且能够帮助管理软件。当遇到conda安装不了的软件时,可以使用wget进行安装。都安装不了的话,就需要找到软件官网,看看是不是缺少依赖的环境或者软件已经停止维护了。总而言之,软件对应的官网很重要。
2022-08-19 17:28:40
2169
原创 RNA-seq——快速下载SRA数据、解决fq文件中测序质量全为 ‘?‘ 的问题
写在前面——在学习RNA-seq时,需要从网上下载公开数据集来上手分析,大部分教程都很古老,其中在ncbi中ftp的下载链接已经不存在了,甚至可以直接下载fastq文件。但是,直接下载的fastq文件做fastqc之后结果为一条直线,因为文件里的测序质量都是30,要想下载带正常质量数据的文件需要换一种方法。
2022-08-19 10:42:49
2305
原创 python学习——tsv文件批量转为csv文件、csv文件列合并
写在前面——近日在处理数据的时候发现有的文件为csv文件,有的为tsv文件,大概搜了一下了解到:TSV是用制表符(‘\t’)作为字段值的分隔符;CSV是用半角逗号(‘,’)作为字段值的分隔符。https://www.jianshu.com/p/6e1c3e9f5e42所以我需要把格式统一,把tsv转化为csv,还需要在最后一列加上label。代码是自己东拼西凑的,如有错误,请指出,谢谢大家~import pandas as pdimport os# 原始文件位置source_path = ".
2022-05-18 20:32:04
2253
2
原创 机器学习——基于python的鸢尾花SVM练习(包含超参数批量筛选、交叉验证)
基于python的鸢尾花SVM练习,包含超参数的批量筛选,重复交叉验证。
2022-04-01 17:37:38
6268
1
原创 机器学习——基于R的svm练习
步骤1. 数据预处理2. 建模1. linear2. polynomial3. radial basis4. sigmoid3. 模型选择4. 特征选择5. 完整代码本文参考:《精通机器学习:基于R》5.3节数据集来自R包(MASS),包含了532位女性的信息,存储在两个数据框中,具体变量表述如下:npreg:怀孕次数glu:血糖浓度, 由口服葡萄糖耐量测试给出bp:舒张压skin:三头肌皮褶厚度bmi:身体质量指数ped:糖尿病家族影响因素age:年龄type:是否患有糖尿病(y
2022-03-22 18:53:06
5688
2
原创 B代表哪一种氨基酸?B和b代表的氨基酸一样吗?
今天在看蛋白质的时候发现了一条这样的序列KWKLFKKIEKVGQNIRDGIIKAGPAVAVVGQATQIAKb看到结尾有个小写的b,感觉很陌生。一般氨基酸不都是用大写字母来表示吗?而且貌似也没见过大写的B表示的氨基酸。查查资料~嗯,确实没有B!但是论文里面总不能是错的吧!再查查资料~除此之外,还有一些三字母或单字母符号可用来表示未明确定义的缩写:Asx、B可代表天冬氨酸(Asp、D)或天冬酰胺(Asn、N)。Glx、Z可代表谷氨酸(Glu、E)或谷氨酰胺(Gln、Q)。Xle、
2022-02-22 16:00:21
3448
1
原创 生信学习——GEO数据挖掘
步骤STEP1:表达矩阵ID转换STEP2:差异分析STEP3:KEGG数据库注释完整代码写在前面——按照生信技能树的学习路线,学完R语言就该学习GEO数据挖掘了。有人说GEO数据挖掘可以快速发文(https://zhuanlan.zhihu.com/p/36303146),不知道靠不靠谱。反正学一学总没有坏处。看完Jimmy老师的视频,写一篇总结方便日后复习。这里有很多操作在《生信人的20个R语言习题》都可以见到,那里写的更加详细。视频教程:https://www.bilibili.com/vide
2021-12-15 14:17:24
7842
2
原创 R语言学习——by函数的一些理解
在做GEO数据挖掘时,有一步操作是整合表达矩阵,即多个探针对应一个基因的情况下,只保留在所有样本里面平均表达量最大的那个探针。tmp <- by(exprSet,ids$symbol, function(x) rownames(x)[which.max(rowMeans(x))])一开始不是很理解,所以去找了by函数的例子,如下。类比了一下可以看出:这个操作首先是根据symbol对exprSet进行分类;然后对同一类数据计算其行平均值;最后找出平均值最大的行,取其行名。
2021-12-07 20:05:22
4550
原创 生信学习——R语言学习总结
写在前面——经过了四十天断断续续的学习,算是对R语言有了初步的了解。其实使用R语言,无非就是对数据进行处理分析,然后把结果可视化。但是数据的千变万化,还有数以万计的函数、数据格式,使得这个过程变得很复杂。无他,唯手熟尔。本篇文章是为了梳理一下学习路线,方便日后复习补充。生信学习——R语言练习题-初级(附详细答案解读)学习了Rstudio的使用,数据格式,数据合并,简单绘图。记得多使用str() class() dim()等函数来查看数据的信息,多使用 ?+函数 来查看相应函数的帮助文档。生
2021-09-08 19:25:13
2218
原创 生信学习——基于R的可视化习题30个(附详细答案解读)
题目目录一、基础绘图1. 对RNAseq_expr的每一列绘制boxplot图2. 对RNAseq_expr的每一列绘制density图3. 对RNAseq_expr的每一列绘制条形图4. 对RNAseq_expr的每一列取log2后重新绘制boxplot图,density图和条形图5. 对Q4的3个图里面添加 trt 和 untrt 组颜色区分开来6. 对RNAseq_expr的前两列画散点图并且计算线性回归方程7. 对RNAseq_expr的所有列两两之间计算相关系数,并且热图可视化8. 取RNAseq
2021-09-08 17:48:54
2363
原创 生信学习——基于R的统计习题(附详细答案解读)
题目目录基础概念1. 载入R中自带的数据集 iris,指出其每列是定性还是定量数据2. 对数据集 iris的所有定量数据列计算集中趋势指标:众数、分位数和平均数3. 对数据集 iris的所有定性数据列计算水平及频次4. 对数据集 iris的所有定量数据列计算离散趋势指标:方差和标准差等5. 计算数据集 iris的前两列变量的相关性,提示cor函数可以选择3种methods6. 对数据集 iris的所有定量数据列内部z-score标准化,并计算标准化后每列的平均值和标准差7. 计算列内部zcore标准化后 i
2021-09-03 22:22:15
4388
1
原创 生信学习——生信人的20个R语言习题(下)(附详细答案解读)
题目目录12. 理解统计学指标mean,median,max,min,sd,var,mad并计算出每个基因在所有样本的这些统计学指标,最后按照mad值排序,取top 50 mad值的基因,得到列表。13. 根据第12步骤得到top 50 mad值的基因列表来取表达矩阵的子集,并且热图可视化子表达矩阵。试试看其它5种热图的包的不同效果。14. 取不同统计学指标mean,median,max,mean,sd,var,mad的各top50基因列表,使用UpSetR包来看他们之间的overlap情况。15. 在第二
2021-08-18 11:21:58
2654
原创 生信学习——生信人的20个R语言习题(上)(附详细答案解读)
题目目录1. 安装一些R包。2. 了解ExpressionSet对象,比如CLL包里面就有data(sCLLex),找到它包含的元素,提取其表达矩阵(使用exprs函数),查看其大小。3. 了解 str,head,help函数,作用于第二步提取到的表达矩阵。4. 安装并了解hgu95av2.db包,看看ls("package:hgu95av2.db")后显示的那些变量。5. 理解head(toTable(hgu95av2SYMBOL))的用法,找到 TP53 基因对应的探针ID。6. 理解探针与基因的对应关
2021-08-18 11:09:24
4486
3
原创 生信学习——R语言小作业-中级(附详细答案解读)
题目目录1. 请根据R包org.Hs.eg.db找到下面ensembl 基因ID 对应的基因名(symbol)。2. 根据R包hgu133a.db找到下面探针对应的基因名(symbol)。3. 找到R包CLL内置的数据集的表达矩阵里面的TP53基因的表达量,并且绘制在 progres.-stable分组的boxplot图。想想如何通过 ggpubr 进行美化。4. 找到BRCA1基因在TCGA数据库的乳腺癌数据集([Breast Invasive Carcinoma (TCGA, PanCancer Atl
2021-08-11 18:10:08
2932
1
原创 install.packages(“hgu133a.db“)报错——解决办法
问题描述install.packages("hgu133a.db")WARNING: Rtools is required to build R packages but is not currently installed. Please download and install the appropriate version of Rtools before proceeding:https://cran.rstudio.com/bin/windows/Rtools/Warning in i
2021-08-04 10:52:21
5191
1
原创 生信学习——R语言练习题-初级(附详细答案解读)
题目目录1. 打开 Rstudio 告诉我它的工作目录。2. 新建6个向量,基于不同的数据类型。(重点是字符串,数值,逻辑值)3. 告诉我在你打开的rstudio里面 getwd() 代码运行后返回的是什么?4. 新建一些数据结构,比如矩阵,数组,数据框,列表等重点是数据框,矩阵)5. 在你新建的数据框进行切片操作,比如首先取第1,3行, 然后取第4,6列6. 使用data函数来加载R内置数据集,找到rivers的描述。7. 下载 [https://www.ncbi.nlm.nih.gov/sra?term
2021-07-31 22:59:34
12154
2
原创 生信学习——sam和bam格式文件的shell小练习(附详细答案解读)
题目目录准备练习文件1. 统计共多少条reads(pair-end reads这里算一条)参与了比对参考基因组2. 统计共有多少种比对的类型(即第二列数值有多少种)及其分布。3. 筛选出比对失败的reads,看看序列特征。4. 比对失败的reads区分成单端失败和双端失败情况,并且拿到序列ID5. 筛选出比对质量值大于30的情况(看第5列)6. 筛选出比对成功,但是并不是完全匹配的序列(看第6列)7. 筛选出inset size长度大于1250bp的 pair-end reads8. 统计参考基因组上面各条
2021-07-15 16:09:41
2236
2
原创 生信学习——fasta和fastq格式文件的shell小练习(附详细答案解读)
题目目录1. 统计**reads_1.fq** 文件中共有多少条序列信息2. 输出所有的**reads_1.fq**文件中的标识符(即以@开头的那一行)3. 输出**reads_1.fq**文件中的 所有序列信息(即每个序列的第二行)4. 输出以‘+’及其后面的描述信息(即每个序列的第三行)5. 输出质量值信息(即每个序列的第四行)6. 计算**reads_1.fq** 文件**含有N碱基**的**reads个数**7. 统计文件中**reads_1.fq**文件里面的序列的**碱基总数**8. 计算**r
2021-07-09 23:41:49
3544
原创 生信学习——Linux必做20题(附详细答案解读)
题目列表1. 在任意文件夹下面创建形如 1/2/3/4/5/6/7/8/9 格式的文件夹系列。2. 在创建好的文件夹(/home/qiime2/Desktop/test/1/2/3/4/5/6/7/8/9)下创建文本文件 me.txt3. 在文本文件 me.txt 里面输入内容:4. 删除上面创建的文件夹 1/2/3/4/5/6/7/8/9 及文本文件 me.txt5. 在任意文件夹下面创建 folder_1~5这5个文件夹,然后每个文件夹下面再创建 folder_1~5这5个文件夹6. 在第5题创建的每一
2021-07-07 11:35:09
2664
3
原创 深度学习——使用国产深度学习框架“飞桨(PaddlePaddle)”重写房价预测模型
一、安装飞桨官方教程:https://www.paddlepaddle.org.cn/install/quick博主本人使用的是Windows+pip+Python3+CPU版本安装过程十分简单,在此不再赘述。二、使用飞桨重写模型说明:普通方法实现房价预测模型,在本人的上一篇文章中有详细说明,戳链接即可查看https://blog.youkuaiyun.com/narutodzx/article/details/106319806首先需要导入相关库# paddle/fluid:飞桨的主库,目
2020-05-27 21:26:00
679
原创 深度学习——入门经典案例《波士顿房价预测》深度解析
一、深度学习机器学习算法理论在上个世纪90年代发展成熟,在许多领域都取得了成功应用。但平静的日子只延续到2010年左右,随着大数据的涌现和计算机算力提升,深度学习模型异军突起,极大改变了机器学习的应用格局。今天,多数机器学习任务都可以使用深度学习模型解决,尤其在在语音、计算机视觉和自然语言处理等领域,深度学习模型的效果比传统机器学习算法有显著提升。有关机器学习、深度学习的详细介绍及其之间的联系可查看下方链接https://www.paddlepaddle.org.cn/tutorials/pro
2020-05-25 12:39:46
17866
2
原创 知识图谱——知识图谱简介及neo4j的安装与入门小例子
一、知识图谱(Knowledge Graph)含义在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。发展历史目标知识图谱主要目标是用来描述真实世界中存在的各种实体和概念,以及他们之间的强关系,我们用关系去描述两个实体之间的关联。表示形式在知识图谱中,我们用RDF形式化地表示这种三元关系。RDF(Resource Description Framewor
2020-05-20 13:46:34
2636
1
原创 sklearn学习——Python预测糖尿病人是否患癌症(Linear Regression)
分类(Classification)与回归(Regression)都属于监督学习,他们的区别在于:分类:用于预测有限的离散值,如是否得了癌症(0,1),或手写数字的判断,是0,1,2,3,4,5,6,7,8还是9等。分类中,预测的可能的结果是有限的,且提前给定的。回归:用于预测实数值,如给定了房子的面积,地段,和房间数,预测房子的价格。LinearRegression 拟合一个带有系数 ...
2020-05-06 12:20:41
2833
3
原创 python中的np.newaxis的用法展示
假如需要从二维数组里面抽取一列取出来之后维度却变成了一维假如我们需要将其还原为二维,就需要newaxis方法实例展示:import numpy as np# 生成一个4×4的随机数组array = np.random.rand(4, 4)print(array)print(array.shape)# 更改前面的维度array1 = array[np.newaxis, :...
2020-05-05 11:42:36
1518
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人