自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(69)
  • 收藏
  • 关注

原创 CIBERSORT出现“$ operator is invalid for atomic vectors” 报错

最近用cybersort 分析细胞出现“$ operator is invalid for atomic vectors"错误,快放弃时,看到一个。说是缺少e1071包,安装以后,报错解决。安装e1071包后运行正常。

2023-05-23 13:20:46 26392 2

原创 Warning: unable to access index for repository https://bioconductor.org/packages/3.17/

查询一圈,是bioconducter 没有big-sur的二进制编译版本。需要从source下载,加上type=“source”可以解决。最近将r升级到4.3.0,使用biomanager安装enomicFeatures包时出现无法访问index的问题。

2023-05-21 21:06:09 16539 1

原创 解除R中从github上下载包API限制的问题(Error: Failed to install ‘unknown package‘ from GitHub: HTTP error 403. )

githhub消除api_rate 限制,安装ggforestplot包

2021-12-19 13:05:13 59669 19

原创 mac 中awk和linux中awk不一致,ARGIND==1不识别的问题。

最近在mac上处理两个文件,发现在centos上用的好好的awk命令mac中无输出,因为以前在grep和sed中遇到mac和centos 使用不一致的问题,整了一下午,发现时mac和centos awk 版本不同$ awk 'BEGIN{OFS=FS="\t"}ARGIND==1{a[$1]=$1}ARGIND==2{print $0}' rep.txt good.txt|head# 无任何输出#查看版本$ man awkNAME awk - pattern-directed sca

2021-12-09 10:28:22 3320

原创 matplotlib保存图片为pdf格式,文字以字体形式保存,可以illustrator编辑,而不是喵点格式。

用默认的 plt.savefig()保存的图片,图利和label都是以瞄点保存的,而不是以文字格式。这样在矢量图编辑中想要调整文字大小和字体时都不方便。使用mpl可以设置pdf图片文字以字体形式保存:# matplot 输出的图片为illustrator可编辑的字体import matplotlib as mplmpl.rcParams['pdf.fonttype'] = 42mpl.rcParams['ps.fonttype'] = 42#保存pdfplt.savefig("multi-ti

2021-09-01 10:15:15 4188

原创 python如何把文字类型转换成时间类型并求间隔日期

最近处理一批数据,把excel导入pandas中后,发现默认导入为object,需要转化成日期后计算时间用药时间和发病时间的间隔。使用time,将其转化为时间格式:# date是字符串格式,换算成time64[d]格式import timecopies.date = copies.date.values.astype('datetime64[D]')计算连个时间点的间隔,直接用“➖”即可:# 计算采样时为用药和发病的第几天,注意用values.astype("datetime64[D]")转

2021-09-01 09:55:37 749

原创 基因芯片GEO数据分析流程-limma

最近工作关系,需要重现一个文章的基因芯片数据分析,查找差异基因,花了一天时间跑了limma流程,供大家参考。论文名字为 Identification of inflammatory mediators in patients with Crohn’s disease unresponsive to anti-TNFα therapy, 是三组之间的差异基因比较。想复现这个图:我图省事,直接GEO数据库中下载了基因表达量的矩阵文件GSE52746_series_matrix.txt.gz, 直接从mat

2021-04-22 14:07:29 4872 1

原创 Warning in install.packages : package ‘limma’ is not available for this version of R

1. limma 包安装在安装基因芯片包limma和biobase时,出现了“Warning in install.packages : package ‘limma’ is not available for this version of R”报错。原因是先得下载bioconductor的包管理器biocmanager,然后即可安装:> install.packages("limma")Warning in install.packages : package ‘limma’ is

2021-04-21 11:05:40 36670 3

原创 conda 安装宏基因组软件megahit出现CondaHTTPError: HTTP 000 CONNECTION FAILED for url问题

使用conda 安装MEGAHIT 软件时,出现 Solving environment: failed CondaHTTPError: HTTP 000 CONNECTION FAILED for url <https://repo.anaconda.com/pkgs/r/linux-64/repodata.json.bz2>:的错误:直接安装$ ./conda install -c bioconda megahitSolving environment: failedCondaHT

2021-03-25 14:47:18 590

原创 如何构建一个一个渐变颜色条图例(color bar)?

最近画图时采用默认的渐变色感觉很丑,就想着自己做一个,用scatterplot 做图,默认渐变图例为圆点# 导入模块import seaborn as snsimport matplotlib.pyplot as plttips = sns.load_dataset("tips") # 导入数据ax = sns.scatterplot(x="total_bill", y="tip", hue="size", palette='RdBu_r', data=tips) # 采用seaborn 中的

2021-03-09 14:18:26 3427 1

原创 centos死机的处理

在使用centos时遇到程序死机,只有鼠标可以动,其他程序都点不动,terminal都打不开。不想开关机重启,可以采用tty界面杀死所有程序后成功启动。在gnome图形界面下,按ctrl+alt+F2,跳转到tty登陆界面,显示:xxxx login in :输入你的用户名,注意是user的名字,如我的主机名字是 dfs@peachgood 时,输入dfs,然后输入你的密码,回车。peachgood login in :dfs # 输入dfspasswd: # 输入密码,注意不能用右边的小

2021-02-22 15:24:53 3978

原创 R中fisher 检验FEXACT error 6. LDKEY=621 is too small for this problem问题

问题:> obs [,1] [,2] [,3][1,] 83 29 35[2,] 30 20 10[3,] 23 12 1[4,] 11 13 0> fisher.test(obs)Error in fisher.test(obs) : FEXACT error 6. LDKEY=621 is too small for this problem, (ii := key2[itp=394] = 488497,

2020-11-26 16:50:05 3335

原创 matplotlib 利用plt.subplot() 函数画多个子图

最近写文章要用到子图,目标是一个大图中包含4个子图。画图可以用matplotlib,也可以用集成式的软件包seaborn。画子图最简单的方法就是用plt.subplot()函数。plt.subplt(行,列,第几个图)函数定义要画那张子图,其中行和列定义要画几张图,如plt.subplot(2,3,1)就是定义大图含有2行3列子图,就是6张图,第三位的1表示开始画第一张图,因此后面的图一次就是plt.subplot(2,3,2),plt.subplot(2,3,3),plt.subplot(2,3,4),

2020-11-19 10:15:36 3517 1

原创 python 时间间隔 timedelta64[ns] 转化成整数格式

首先把时间格式的naT转换成0 days查询数据类型查询数据框data_onset中onset_days 列第13~16行 数据:>>> data_onset.onset_days[13:16]13 13 days14 NaT15 NaTName: onset_days, dtype: timedelta64[ns]Name: onset_days, dtype: timedelta64[ns]格式为timedelta64[ns]首先将缺失

2020-11-12 20:37:29 14321 3

原创 32 位的EndNote X9 在新版macOS Catalina中无法打开出现需要升级的问题解决

最近换上了mac,系统从win10换到catalina 10.15.7,各种配置软件和坑。今天使用某科大 EndNote X9,成功安装后,在启动台(Launchpad)没看到图标。在文件夹/Application 中也没发现EndNote x9的图标。在finder 中输入 “EndNote X9” 找到了 EndNote X9 图标,发现EndNote X9 在/Applications 文件夹下面 点击 EndNote X9, 出现以下要求升级的提示:搜索了一圈,参考解决EndN

2020-10-22 10:19:19 4477 17

原创 如何把datetime64[ns]转换成datetime64[D]格式

今天碰到一个计算两个时间间隔的问题,发现excel导入的时间格式均为datetime64[ns],毫秒格式。由于只需要天数,想转化为datetime64[D] 格式。>>>data_total.DURG_DATE查看时间是datetime64[ns]直接修改格式>>> data_total.DURG_DATE.astype("datetime64[D]")直接转换依然不行 原来,pandas series 默认把时间转换为datetime64[ns]格

2020-10-15 13:38:14 11663 6

原创 RankWarning: Polyfit may be poorly conditioned问题的解决

本人系统为MacOS catalina 10.15.7新的MacBook pro 用brew install python 安装了python,自动为3.9.0版本。然后pip3 install notebook,安装了jupyter noteboook。随后pip3 install numpy,打开notebook,出现“RankWarning: Polyfit may be poorly conditioned“ 错误。import numpy as np---------------------

2020-10-14 22:32:25 12469 5

原创 如何彻底删除mac os上自己安装的python

本人不小心安装了3.9,使用numpy出现了“RankWarning: Polyfit may be poorly conditioned”,需要彻底删除python 3.9 的各种包,链接和文件。1. 删除3.9 的框架@macbook ~ $ which python # 默认python版本,mac自带/usr/bin/python@macbook ~ $ which python3 #查询pyton3 位置/Library/Frameworks/Python.framework/Versi

2020-10-14 22:29:49 12786 8

原创 vim 出现“Error detected while processing /Users/zouxiaohui/.vimrc: line 1:。。。。”错误

系统:macos catalina 10.15.7配置.vimrc文件后,每次运行vim 都会出现$ vim .vimrcError detected while processing /Users/zouxiaohui/.vimrc:line 1:E488: Trailing characters: # 设定默认解码line 5:E488: Trailing characters: # 不要使用vi的键盘模式,而是vim自己的line 8:E488: Trailing

2020-10-12 14:07:37 5944 1

原创 MacBook pro OS catalina 安装oh-my-zsh,homebrew, Command_Line_Tools_for_Xcode

新入手一代macbook pro 16 寸,然后发现terminal 颜色太差,想调整一下颜色,准备下载oh-my-zsh,安装的时候发现巨多坑。我的os未升级,版本为 macOS Catalina Version 10.14.0首先你采用美化并增强Mac终端介绍的方法,在终端中运行:@macbook ~ $ git clone https://github.com/robbyrussell/oh-my-zsh.git ~/.oh-my-zshxcode-select: note: no devel

2020-10-12 13:59:40 1269 1

原创 seaborn relplot 时出现 AttributeError: ‘int‘ object has no attribute ‘view‘ 错误原因

seaborn 是python中一个封装的包,可以很方便的做出多种图,而不需要想matplotlib中设置各种参数。我的数据结构如下:>>> data_1st.head()其中sample_time 是分类变量,采样的天数。尝试用sns.relplot 做出点图,不同的sample_type 用不同形状的点,不同sample_time的样本用不同颜色>>> data_str=data_1st.copy()>>> sns.relplot(x=

2020-09-22 17:17:37 4248

原创 用pandas将excel中一个工作薄中的多个工作表(sheet)拆分成单个文件并保存

在用pandas读取excel文件时,有时候遇到一个excel文件包含了好几个样本的sheet,而这些sheet需要单独保存。sheet少的话可以打开excel新建一个新的excel文件然后复制sheet过去单独保存,但如果有几十个就比较麻烦。可以用pandas来3行代码搞定。import pandas as pd# 读取excel 文件中所有sheettest_2=pd.read_excel("folder/yourfile.xlsx",sheet_name=None)这种读取是以字典的形式读取

2020-09-21 14:19:53 9908 7

原创 如何使用git上传自己的代码到github

在做项目和发表论文时,最后一步是把代码上传到github供社区参考。使用git工具可以方便的把整个文件夹的代码上传到自己github代码仓库中。你首先需要安装git,默认安装即可,上传代码可分为3步:1. 初始化自己文件夹为代码仓库进入自己要上传的文件夹,用点击右键,“git bash here”,打开git 命令行终端。或者再git终端中使用cd github_code进入文件夹。# ...

2020-05-07 17:11:17 322

原创 如何保存fit后的标准化工具函数StandardScaler

我们在训练模型时,常常需要标准化数据,常用的是sklearn.preprocessing模块中的 StandardScaler。而在我们测试数据时,也需要在同样的尺度下进行预测。但我们并不想重新导入原来训练的数据来fit 然后预测,这个时候我们可以保存scaler 然后导入直接标化自己需要预测的数据fit 自己的标化器# 导入模块import numpy as npimport panda...

2020-05-07 15:34:36 7101 3

原创 git commit 命令出现“fatal: unable to auto-detect email address (got '******@.(none)')错误

初学者使用git来控制代码版本时,使用git commit 命令是出现fatal: unable to auto-detect email address (got ‘…@…(none)’) 错误,这是由于未配置github用户名和邮箱所致:$ git commit -m "text commit"*** Please tell me who you are.Run git con...

2020-05-07 10:46:00 45098 1

原创 如何使用ggplot画条形图并调整背景

以前都是python中matplotlib画图,自从学会R后,用R画图更合适# 读取数据和查询数据taxon <- read.table("top_genus.txt")acc <- read.table("top_genus_acc.txt")# 导入库library("ggplot2")# 构建数据框用来画图data <- data.frame(taxon=...

2020-04-10 16:14:50 2330

原创 如何利用sklearn中roc_curve 三行代码画ROC曲线

ROC曲线是评估模型效果的重要工具,其X轴为假阳性率,Y轴为真阳性率(也叫召回率recall),其意义在于,在真阳性率时,模型同时判错阳性的样本比例,因此曲线越陡,越表示模型效果好。ROC曲线下AUC面积越大表示模型效果越好,我们可以利用sklearn 中的roc_curve函数方便的画ROC曲线。#导入要用到的库# load the packageimport numpy as npim...

2020-04-10 15:56:49 4461 3

原创 如何导入训练好的tensorflow model 并用其来预测自己的数据?

在使用tensorflow时,经常需要用别人训练好的模型来预测我们自己我们自己的数据。一般分为轻量级的保存参数和保存整个模型。使用保存weights 可以参考本人另外一篇博客。这儿主要介绍导入别人训练好的以h5格式保存的model并用其预测自己的数据:1. 导入库import tensorflow as tffrom tensorflow.keras import datasets, l...

2020-03-29 22:03:22 3986

原创 不使用循环,如何对numpy array或者list中每个元素进行操作

在使用list或者numpy array时,经常需要对里面的每一个元素进行操作。当然使用for循环是最简单的,但for循环速度非常慢。而numpy array内置科学计算模块,速度大大高于for循环。如我有个list 需要对里面的元素切片...

2020-03-28 21:43:29 3990

原创 通过awk字符串处理函数substr遍历字符串(如基因组)

在处理全基因组序列时,有时候需要一段一段的遍历基因组序列,分析各个区域序列的特征。比如我有一个细菌基因组5M,我需要截断成5000bp的片段,或者每隔1000bp截取5000bp,一直到把整个基因组截取完毕,然后对这些所有的片段做分析。当然最简单的是用python的字符串加索引功能,详情见本人文章使用countvectorizer 和tf-idf来编码文字/DNA序列 中的第一部分“1. 对dn...

2020-03-19 20:09:28 867

原创 numpy.savetxt保存array时TypeError: must be real number, not str 问题

在用numpy.savetxt() 保存一个字符串array时出现了TypeError: must be real number, not str的报错。在百度搜索了一下,全是乱七八糟的解释,没看到靠谱的。以前在国外用google,任何报错基本很快找到解决办法,百度真是无语了。没办法,用bing搜索了下,在 stack overflow中找到了解决办法:import numpy as np#...

2020-03-19 11:12:11 5110 1

原创 如何设置在交叉验证中同时设置训练集,验证集,测试集三个数据集并实现循环

传统的交叉验证在做机器学习时,交叉验证时验证模型稳定性的重要手段。大部分交叉验证仅分为训练集和测试集,每次循环一次,直至覆盖所有数据。这个可以采用sklern中cross_validiation_score 直接运行,如:该方法的缺点之一是只能拆分成训练集和测试集,当需要验证集来调参数时,无验证集可用。先划分测试集,但不循环实现训练集,测试集,和验证集的一个方法时在训练数据前分割数据,取...

2020-03-07 06:28:50 2162

原创 如何通过numpy子集来筛选矩阵或者数组

使用pandsa数据框时经常需要通过某一列来筛选数据,有时需要用for循环来筛选目标列,但for循环太慢,可以通过numpy子集函数先筛选索引,然后通过布尔索引来筛选,可以极大提高筛选的速度,可以1秒筛选几百万的矩阵。第二步,对于每个样本,提取3条序列作为测试集合使用比如要解决如下问题:本人有个涉及质粒的矩阵,如下:>>> pdf6.head() 0 1 2 3 4 5...

2020-03-01 08:07:30 870

原创 R 中Salaries数据集找不到的原因

从car 包中导入R中Salaries数据集时发现不存在:> data(Salaries, package="car")Warning message:In data(Salaries, package = "car") : data set ‘Salaries’ not found原来是Salaries 数据转移到carData包中了,重新导入即可> data(Salar...

2020-02-26 12:00:35 4864 1

原创 R中如何下载pima-indians-diabetes数据库

在练习《R语言实战》一树的”分类“这张要用到pima-indians-diabetes 数据库,但原书中的连接已经失效,因此重新在网上找了一个链接地址,只需一下代码即可下载:url <- "http://nrvis.com/data/mldata/pima-indians-diabetes.csv"diabetes <- read.table(url, sep=",", head...

2020-02-16 10:55:52 1531 1

原创 使用sed处理fasta序列中的特殊符号

从网上下载的DNA序列在做生物信息或者机器学习之前,需要对序列进行质控,观察是否有一些特殊字符如“-”,“>"等。sed 是一个字符处理命令,可以使用正则表达式,可以对序列替换,删除,查找等处理,速度非常块,本次使用sed处理序列要处理的序列如下:test$less test.fa>BetaCov/Wuhan/IVDC-HB-01/2019|EPI_ISL_402119ATTA...

2020-02-11 05:12:14 5600

原创 一条命令实现fasta序列多行变单行

许多序列处理软件要求fasta序列为单行,但很多时候下载的序列都是多行fasta序列,因此需要转换成单行fasta格式:多行fasta文件未test.fa:test$cat test.fa >seq1ATTAAAGGTTTATACCTTCCAATCTGTGTGGCTGTCACTCACACGAGTAACTCGTCTATC>seq2ATTAAAGGTTTATACCTTCC...

2020-02-11 05:08:28 9030 2

原创 Tensorflow 使用Bidirectional()包装器构建双向LSTM模型,预测DNA序列功能

循环神经网络(RNN)循环神经网络RNN能处理时间序列,过去几年中,应用 RNN 在语音识别,语言建模,翻译,图片描述等问题上已经取得一定成功,并且这个列表还在增长。RNN模型的一个代表是LSTM ,这是一种特别的 RNN,比标准的 RNN 在很多的任务上都表现得更好,因此获得了非常多的应用。值得一提的是,lstm的作者也Jürgen Schmidhuber 也是机器学习领域的大牛,名气比三巨头...

2020-02-11 03:12:37 2763 1

原创 一句代码快速提取fastq文件中的fasta

NGS数据输出一般为fastq格式,包含序列的质量等信息,有时候我们只想提取fasta序列文件,可以通过多种NGS序列处理软件。此外,可以使用一行代码快速提取。可以通过两种方式,第一种用sed,第二种用awd,个人觉得第1种sed 命令比较精妙,分享供大家参考:复习一下典型的fastq文件格式$ cat test.fq@ST-E00126:128:HJFLHCCXX:2:1101:7405...

2020-01-29 07:19:32 2237

原创 使用countvectorizer 和tf-idf来编码文字/DNA序列

在做文字识别和自然语言处理时,countvectorizer 和tf-idf是常见的两种常见的对文字进行编码的方式。DNA在打断成kmer后,也可以按照文字编码的方式对kme进行编码。DNA如何编码可参考本人博客文章字符串(如DNA序列,蛋白质序列)的编码和用于机器学习和神经网络.这篇文章展示如何将DNA序列打断成kmer然后用countvectorizer 和tf-idf来编码,当然也可以直接...

2020-01-29 02:41:14 1159

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除