XH生信ML笔记-优快云博客

原创 CIBERSORT出现“$ operator is invalid for atomic vectors” 报错

最近用cybersort 分析细胞出现“$ operator is invalid for atomic vectors"错误，快放弃时，看到一个。说是缺少e1071包，安装以后，报错解决。安装e1071包后运行正常。

2023-05-23 13:20:46 26521 2

原创 Warning: unable to access index for repository https://bioconductor.org/packages/3.17/

查询一圈，是bioconducter 没有big-sur的二进制编译版本。需要从source下载，加上type=“source”可以解决。最近将r升级到4.3.0，使用biomanager安装enomicFeatures包时出现无法访问index的问题。

2023-05-21 21:06:09 16793 1

原创解除R中从github上下载包API限制的问题（Error: Failed to install ‘unknown package‘ from GitHub: HTTP error 403. ）

githhub消除api_rate 限制，安装ggforestplot包

2021-12-19 13:05:13 60782 19

原创 mac 中awk和linux中awk不一致，ARGIND==1不识别的问题。

最近在mac上处理两个文件，发现在centos上用的好好的awk命令mac中无输出，因为以前在grep和sed中遇到mac和centos 使用不一致的问题，整了一下午，发现时mac和centos awk 版本不同$ awk 'BEGIN{OFS=FS="\t"}ARGIND==1{a[$1]=$1}ARGIND==2{print $0}' rep.txt good.txt|head# 无任何输出#查看版本$ man awkNAME awk - pattern-directed sca

2021-12-09 10:28:22 3417

原创 matplotlib保存图片为pdf格式，文字以字体形式保存，可以illustrator编辑，而不是喵点格式。

用默认的 plt.savefig（）保存的图片，图利和label都是以瞄点保存的，而不是以文字格式。这样在矢量图编辑中想要调整文字大小和字体时都不方便。使用mpl可以设置pdf图片文字以字体形式保存：# matplot 输出的图片为illustrator可编辑的字体import matplotlib as mplmpl.rcParams['pdf.fonttype'] = 42mpl.rcParams['ps.fonttype'] = 42#保存pdfplt.savefig("multi-ti

2021-09-01 10:15:15 4672

原创 python如何把文字类型转换成时间类型并求间隔日期

最近处理一批数据，把excel导入pandas中后，发现默认导入为object，需要转化成日期后计算时间用药时间和发病时间的间隔。使用time，将其转化为时间格式:# date是字符串格式，换算成time64[d]格式import timecopies.date = copies.date.values.astype('datetime64[D]')计算连个时间点的间隔，直接用“➖”即可：# 计算采样时为用药和发病的第几天，注意用values.astype("datetime64[D]")转

2021-09-01 09:55:37 816

原创基因芯片GEO数据分析流程-limma

最近工作关系，需要重现一个文章的基因芯片数据分析，查找差异基因，花了一天时间跑了limma流程，供大家参考。论文名字为 Identification of inflammatory mediators in patients with Crohn’s disease unresponsive to anti-TNFα therapy, 是三组之间的差异基因比较。想复现这个图：我图省事，直接GEO数据库中下载了基因表达量的矩阵文件GSE52746_series_matrix.txt.gz, 直接从mat

2021-04-22 14:07:29 4980 1

原创 Warning in install.packages : package ‘limma’ is not available for this version of R

1. limma 包安装在安装基因芯片包limma和biobase时，出现了“Warning in install.packages : package ‘limma’ is not available for this version of R”报错。原因是先得下载bioconductor的包管理器biocmanager，然后即可安装：> install.packages("limma")Warning in install.packages : package ‘limma’ is

2021-04-21 11:05:40 38224 3

原创 conda 安装宏基因组软件megahit出现CondaHTTPError: HTTP 000 CONNECTION FAILED for url问题

使用conda 安装MEGAHIT 软件时，出现 Solving environment: failed CondaHTTPError: HTTP 000 CONNECTION FAILED for url <https://repo.anaconda.com/pkgs/r/linux-64/repodata.json.bz2>：的错误：直接安装$ ./conda install -c bioconda megahitSolving environment: failedCondaHT

2021-03-25 14:47:18 668

原创如何构建一个一个渐变颜色条图例（color bar）？

最近画图时采用默认的渐变色感觉很丑，就想着自己做一个，用scatterplot 做图，默认渐变图例为圆点# 导入模块import seaborn as snsimport matplotlib.pyplot as plttips = sns.load_dataset("tips") # 导入数据ax = sns.scatterplot(x="total_bill", y="tip", hue="size", palette='RdBu_r', data=tips) # 采用seaborn 中的

2021-03-09 14:18:26 3593 1

原创 centos死机的处理

在使用centos时遇到程序死机，只有鼠标可以动，其他程序都点不动，terminal都打不开。不想开关机重启，可以采用tty界面杀死所有程序后成功启动。在gnome图形界面下，按ctrl+alt+F2，跳转到tty登陆界面，显示：xxxx login in :输入你的用户名，注意是user的名字，如我的主机名字是 dfs@peachgood 时，输入dfs，然后输入你的密码，回车。peachgood login in :dfs # 输入dfspasswd: # 输入密码，注意不能用右边的小

2021-02-22 15:24:53 4167

原创 R中fisher 检验FEXACT error 6. LDKEY=621 is too small for this problem问题

问题：> obs [,1] [,2] [,3][1,] 83 29 35[2,] 30 20 10[3,] 23 12 1[4,] 11 13 0> fisher.test(obs)Error in fisher.test(obs) : FEXACT error 6. LDKEY=621 is too small for this problem, (ii := key2[itp=394] = 488497,

2020-11-26 16:50:05 3419

原创 matplotlib 利用plt.subplot() 函数画多个子图

最近写文章要用到子图，目标是一个大图中包含4个子图。画图可以用matplotlib，也可以用集成式的软件包seaborn。画子图最简单的方法就是用plt.subplot()函数。plt.subplt(行，列，第几个图)函数定义要画那张子图，其中行和列定义要画几张图，如plt.subplot(2,3,1)就是定义大图含有2行3列子图，就是6张图，第三位的1表示开始画第一张图，因此后面的图一次就是plt.subplot(2,3,2)，plt.subplot(2,3,3)，plt.subplot(2,3,4)，

2020-11-19 10:15:36 3607 1

原创 python 时间间隔 timedelta64[ns] 转化成整数格式

首先把时间格式的naT转换成0 days查询数据类型查询数据框data_onset中onset_days 列第13～16行数据:>>> data_onset.onset_days[13:16]13 13 days14 NaT15 NaTName: onset_days, dtype: timedelta64[ns]Name: onset_days, dtype: timedelta64[ns]格式为timedelta64[ns]首先将缺失

2020-11-12 20:37:29 14544 3

原创 32 位的EndNote X9 在新版macOS Catalina中无法打开出现需要升级的问题解决

最近换上了mac，系统从win10换到catalina 10.15.7，各种配置软件和坑。今天使用某科大 EndNote X9，成功安装后，在启动台（Launchpad）没看到图标。在文件夹/Application 中也没发现EndNote x9的图标。在finder 中输入 “EndNote X9” 找到了 EndNote X9 图标，发现EndNote X9 在/Applications 文件夹下面点击 EndNote X9, 出现以下要求升级的提示：搜索了一圈，参考解决EndN

2020-10-22 10:19:19 4658 17

原创如何把datetime64[ns]转换成datetime64[D]格式

今天碰到一个计算两个时间间隔的问题，发现excel导入的时间格式均为datetime64[ns]，毫秒格式。由于只需要天数，想转化为datetime64[D] 格式。>>>data_total.DURG_DATE查看时间是datetime64[ns]直接修改格式>>> data_total.DURG_DATE.astype("datetime64[D]")直接转换依然不行原来，pandas series 默认把时间转换为datetime64[ns]格

2020-10-15 13:38:14 11799 6

原创 RankWarning: Polyfit may be poorly conditioned问题的解决

本人系统为MacOS catalina 10.15.7新的MacBook pro 用brew install python 安装了python，自动为3.9.0版本。然后pip3 install notebook，安装了jupyter noteboook。随后pip3 install numpy，打开notebook，出现“RankWarning: Polyfit may be poorly conditioned“ 错误。import numpy as np---------------------

2020-10-14 22:32:25 12715 5

原创如何彻底删除mac os上自己安装的python

本人不小心安装了3.9，使用numpy出现了“RankWarning: Polyfit may be poorly conditioned”，需要彻底删除python 3.9 的各种包，链接和文件。1. 删除3.9 的框架@macbook ~ $ which python # 默认python版本，mac自带/usr/bin/python@macbook ~ $ which python3 #查询pyton3 位置/Library/Frameworks/Python.framework/Versi

2020-10-14 22:29:49 13387 8

原创 vim 出现“Error detected while processing /Users/zouxiaohui/.vimrc: line 1:。。。。”错误

系统：macos catalina 10.15.7配置.vimrc文件后，每次运行vim 都会出现$ vim .vimrcError detected while processing /Users/zouxiaohui/.vimrc:line 1:E488: Trailing characters: # 设定默认解码line 5:E488: Trailing characters: # 不要使用vi的键盘模式，而是vim自己的line 8:E488: Trailing

2020-10-12 14:07:37 6137 1

原创 MacBook pro OS catalina 安装oh-my-zsh，homebrew, Command_Line_Tools_for_Xcode

新入手一代macbook pro 16 寸，然后发现terminal 颜色太差，想调整一下颜色，准备下载oh-my-zsh，安装的时候发现巨多坑。我的os未升级，版本为 macOS Catalina Version 10.14.0首先你采用美化并增强Mac终端介绍的方法，在终端中运行：@macbook ~ $ git clone https://github.com/robbyrussell/oh-my-zsh.git ~/.oh-my-zshxcode-select: note: no devel

2020-10-12 13:59:40 1330 1

原创 seaborn relplot 时出现 AttributeError: ‘int‘ object has no attribute ‘view‘ 错误原因

seaborn 是python中一个封装的包，可以很方便的做出多种图，而不需要想matplotlib中设置各种参数。我的数据结构如下：>>> data_1st.head()其中sample_time 是分类变量，采样的天数。尝试用sns.relplot 做出点图，不同的sample_type 用不同形状的点，不同sample_time的样本用不同颜色>>> data_str=data_1st.copy()>>> sns.relplot(x=

2020-09-22 17:17:37 4324

原创用pandas将excel中一个工作薄中的多个工作表（sheet）拆分成单个文件并保存

在用pandas读取excel文件时，有时候遇到一个excel文件包含了好几个样本的sheet，而这些sheet需要单独保存。sheet少的话可以打开excel新建一个新的excel文件然后复制sheet过去单独保存，但如果有几十个就比较麻烦。可以用pandas来3行代码搞定。import pandas as pd# 读取excel 文件中所有sheettest_2=pd.read_excel("folder/yourfile.xlsx",sheet_name=None)这种读取是以字典的形式读取

2020-09-21 14:19:53 10034 7

原创如何使用git上传自己的代码到github

在做项目和发表论文时，最后一步是把代码上传到github供社区参考。使用git工具可以方便的把整个文件夹的代码上传到自己github代码仓库中。你首先需要安装git，默认安装即可，上传代码可分为3步：1. 初始化自己文件夹为代码仓库进入自己要上传的文件夹，用点击右键，“git bash here”，打开git 命令行终端。或者再git终端中使用cd github_code进入文件夹。# ...

2020-05-07 17:11:17 371

原创如何保存fit后的标准化工具函数StandardScaler

我们在训练模型时，常常需要标准化数据，常用的是sklearn.preprocessing模块中的 StandardScaler。而在我们测试数据时，也需要在同样的尺度下进行预测。但我们并不想重新导入原来训练的数据来fit 然后预测，这个时候我们可以保存scaler 然后导入直接标化自己需要预测的数据fit 自己的标化器# 导入模块import numpy as npimport panda...

2020-05-07 15:34:36 7456 3

原创 git commit 命令出现“fatal: unable to auto-detect email address (got '******@.(none)')错误

初学者使用git来控制代码版本时，使用git commit 命令是出现fatal: unable to auto-detect email address (got ‘…@…(none)’) 错误，这是由于未配置github用户名和邮箱所致：$ git commit -m "text commit"*** Please tell me who you are.Run git con...

2020-05-07 10:46:00 46474 1

原创如何使用ggplot画条形图并调整背景

以前都是python中matplotlib画图，自从学会R后，用R画图更合适# 读取数据和查询数据taxon <- read.table("top_genus.txt")acc <- read.table("top_genus_acc.txt")# 导入库library("ggplot2")# 构建数据框用来画图data <- data.frame(taxon=...

2020-04-10 16:14:50 2398

原创如何利用sklearn中roc_curve 三行代码画ROC曲线

ROC曲线是评估模型效果的重要工具，其X轴为假阳性率，Y轴为真阳性率（也叫召回率recall），其意义在于，在真阳性率时，模型同时判错阳性的样本比例，因此曲线越陡，越表示模型效果好。ROC曲线下AUC面积越大表示模型效果越好，我们可以利用sklearn 中的roc_curve函数方便的画ROC曲线。#导入要用到的库# load the packageimport numpy as npim...

2020-04-10 15:56:49 4525 3

原创如何导入训练好的tensorflow model 并用其来预测自己的数据？

在使用tensorflow时，经常需要用别人训练好的模型来预测我们自己我们自己的数据。一般分为轻量级的保存参数和保存整个模型。使用保存weights 可以参考本人另外一篇博客。这儿主要介绍导入别人训练好的以h5格式保存的model并用其预测自己的数据：1. 导入库import tensorflow as tffrom tensorflow.keras import datasets, l...

2020-03-29 22:03:22 4075

原创不使用循环，如何对numpy array或者list中每个元素进行操作

在使用list或者numpy array时，经常需要对里面的每一个元素进行操作。当然使用for循环是最简单的，但for循环速度非常慢。而numpy array内置科学计算模块，速度大大高于for循环。如我有个list 需要对里面的元素切片...

2020-03-28 21:43:29 4071

原创通过awk字符串处理函数substr遍历字符串（如基因组）

在处理全基因组序列时，有时候需要一段一段的遍历基因组序列，分析各个区域序列的特征。比如我有一个细菌基因组5M，我需要截断成5000bp的片段，或者每隔1000bp截取5000bp，一直到把整个基因组截取完毕，然后对这些所有的片段做分析。当然最简单的是用python的字符串加索引功能，详情见本人文章使用countvectorizer 和tf-idf来编码文字/DNA序列中的第一部分“1. 对dn...

2020-03-19 20:09:28 940

原创 numpy.savetxt保存array时TypeError: must be real number, not str 问题

在用numpy.savetxt() 保存一个字符串array时出现了TypeError: must be real number, not str的报错。在百度搜索了一下，全是乱七八糟的解释，没看到靠谱的。以前在国外用google，任何报错基本很快找到解决办法，百度真是无语了。没办法，用bing搜索了下，在 stack overflow中找到了解决办法：import numpy as np#...

2020-03-19 11:12:11 5230 1

原创如何设置在交叉验证中同时设置训练集，验证集，测试集三个数据集并实现循环

传统的交叉验证在做机器学习时，交叉验证时验证模型稳定性的重要手段。大部分交叉验证仅分为训练集和测试集，每次循环一次，直至覆盖所有数据。这个可以采用sklern中cross_validiation_score 直接运行，如：该方法的缺点之一是只能拆分成训练集和测试集，当需要验证集来调参数时，无验证集可用。先划分测试集，但不循环实现训练集，测试集，和验证集的一个方法时在训练数据前分割数据，取...

2020-03-07 06:28:50 2242

原创如何通过numpy子集来筛选矩阵或者数组

使用pandsa数据框时经常需要通过某一列来筛选数据，有时需要用for循环来筛选目标列，但for循环太慢，可以通过numpy子集函数先筛选索引，然后通过布尔索引来筛选，可以极大提高筛选的速度，可以1秒筛选几百万的矩阵。第二步，对于每个样本，提取3条序列作为测试集合使用比如要解决如下问题：本人有个涉及质粒的矩阵，如下：>>> pdf6.head() 0 1 2 3 4 5...

2020-03-01 08:07:30 920

原创 R 中Salaries数据集找不到的原因

从car 包中导入R中Salaries数据集时发现不存在：> data(Salaries, package="car")Warning message:In data(Salaries, package = "car") : data set ‘Salaries’ not found原来是Salaries 数据转移到carData包中了，重新导入即可> data(Salar...

2020-02-26 12:00:35 4952 1

原创 R中如何下载pima-indians-diabetes数据库

在练习《R语言实战》一树的”分类“这张要用到pima-indians-diabetes 数据库，但原书中的连接已经失效，因此重新在网上找了一个链接地址，只需一下代码即可下载：url <- "http://nrvis.com/data/mldata/pima-indians-diabetes.csv"diabetes <- read.table(url, sep=",", head...

2020-02-16 10:55:52 1655 1

原创使用sed处理fasta序列中的特殊符号

从网上下载的DNA序列在做生物信息或者机器学习之前，需要对序列进行质控，观察是否有一些特殊字符如“-”，“>"等。sed 是一个字符处理命令，可以使用正则表达式，可以对序列替换，删除，查找等处理，速度非常块，本次使用sed处理序列要处理的序列如下：test$less test.fa>BetaCov/Wuhan/IVDC-HB-01/2019|EPI_ISL_402119ATTA...

2020-02-11 05:12:14 5899

原创一条命令实现fasta序列多行变单行

许多序列处理软件要求fasta序列为单行，但很多时候下载的序列都是多行fasta序列，因此需要转换成单行fasta格式：多行fasta文件未test.fa：test$cat test.fa >seq1ATTAAAGGTTTATACCTTCCAATCTGTGTGGCTGTCACTCACACGAGTAACTCGTCTATC>seq2ATTAAAGGTTTATACCTTCC...

2020-02-11 05:08:28 9406 2

原创 Tensorflow 使用Bidirectional()包装器构建双向LSTM模型，预测DNA序列功能

循环神经网络（RNN)循环神经网络RNN能处理时间序列，过去几年中，应用 RNN 在语音识别，语言建模，翻译，图片描述等问题上已经取得一定成功，并且这个列表还在增长。RNN模型的一个代表是LSTM ，这是一种特别的 RNN，比标准的 RNN 在很多的任务上都表现得更好，因此获得了非常多的应用。值得一提的是，lstm的作者也Jürgen Schmidhuber 也是机器学习领域的大牛，名气比三巨头...

2020-02-11 03:12:37 2824 1

原创一句代码快速提取fastq文件中的fasta

NGS数据输出一般为fastq格式，包含序列的质量等信息，有时候我们只想提取fasta序列文件，可以通过多种NGS序列处理软件。此外，可以使用一行代码快速提取。可以通过两种方式，第一种用sed，第二种用awd，个人觉得第1种sed 命令比较精妙，分享供大家参考：复习一下典型的fastq文件格式$ cat test.fq@ST-E00126:128:HJFLHCCXX:2:1101:7405...

2020-01-29 07:19:32 2332

原创使用countvectorizer 和tf-idf来编码文字/DNA序列

在做文字识别和自然语言处理时，countvectorizer 和tf-idf是常见的两种常见的对文字进行编码的方式。DNA在打断成kmer后，也可以按照文字编码的方式对kme进行编码。DNA如何编码可参考本人博客文章字符串（如DNA序列，蛋白质序列）的编码和用于机器学习和神经网络.这篇文章展示如何将DNA序列打断成kmer然后用countvectorizer 和tf-idf来编码，当然也可以直接...

2020-01-29 02:41:14 1226

空空如也

空空如也