练习时长两年半的生信生-优快云博客

原创 python爬取pubmed文章标题，进行词频统计、生成词云

简单易用的pubmed爬虫代码！

2020-06-12 20:17:46 4323 3

原创自动批量导出web of science检索结果

这是一个可以模拟点击鼠标操作来进行自动批量导出检索结果的python脚本

2023-12-17 00:09:46 1779 1

利用conda安装了trinity环境，然后编译安装了RSEM并加入PATH中，运行后出现报错Can't locate rsem_perl_utils.pm in @INC (you may need to install the rsem_perl_utils module)(@INC contains: /home/user/.conda/envs/Trinity/bin *****根据提示，rsem_perl_utils.pm 这个模块没有被发现，解决办法将rsem_perl_utils.pm复

2022-01-05 17:32:43 1172 2

原创 Trinity 报错samtools版本检测不对

conda安装的Trinity运行时提示报错Error, need samtools installed that is at least as new as version 1.3 at /home/****/.conda/envs/Trinity/bin/Trinity line 3813.按照网上的教程将samtools降级为1.3版本后仍然有报错，那就直接vim打开/home/***/.conda/envs/Trinity/bin/Trinity，定位到3813行，给他直接注释掉这个判断句，保存

2021-12-28 20:39:16 1593

原创 conda安装失败提示Segmentation fault (core dumped)

出现这个情况是因为之前安装的时候，有的软件没有下载完全，因此需要先清理掉未下载好的软件再重新安装。使用：conda clean -a命令，可以清楚所有的安装包和缓存等，但也会清理掉已经下载好但未使用的；但如果我们知道是哪个包没有下载好，那我们只需要到conda安装目录下的/pkg中将没下载好的包删除掉，然后再执行一次安装命令即可。conda换源：# 添加常用下载频道conda config --add channels defaultsconda config --add channels

2021-08-12 19:45:31 2492 2

原创基于Astral利用单拷贝同源基因构建物种树

全网最简单：基于基因组构建物种树，一条命令，两种结果都有了！

2021-01-22 20:04:14 7883 2

原创物种组成相对丰度（百分比）堆叠柱状图

百分比堆积物种组成图

2020-12-14 23:57:30 14841 4

原创从eggNOG进行GO注释到使用clusterProfiler富集分析

从GO注释到数据处理再到富集分析可视化，最详细最简单~~~

2020-12-11 17:33:36 16981 16

原创构建单拷贝同源蛋白系统发育树，一条命令提序列!

一条命令提取单拷贝同源蛋白序列！

2020-09-10 11:37:05 4891 2

原创几个linux使用技巧（一）

1 批量解压tar文件命令：for tar in *.tar.gz; do tar -zxvf $tar -C /outfiles ; done2 复制时忽略覆盖提示\cp -rf file1 file23 删除某类文件之外的文件rm -rf !(*.gz)4 后台挂起运行程序nohup 命令 > file.log 2>&1 &...

2020-09-05 17:00:51 172

原创 HMMER批量比对及结果处理

拿来立马可用的hmmer分析脚本，走过路过不要错过~

2020-09-04 21:34:06 20377 5

原创利用python进行数据分析（十八）

第五章5.2.4整数索引虽然我们可以使用整数索引对pandas对象执行索引，

2020-07-27 23:44:03 291

原创利用python进行数据分析（十七）

第五章5.2.3 索引选择与过滤Series的索引与NumPy数组的索引功能类似，不过Series的索引值可以不仅仅是整数。>>>obj = pd.Series(np.arange(4.), index=['a', 'b', 'c', 'd'])>>>obja 0.0b 1.0c 2.0d 3.0dtype: float64>>>obj['a']0.0>>>obj[0]0.0#索.

2020-07-26 00:02:54 235

原创利用python进行数据分析（十六）

第五章5.1.3索引对象pandas中的索引对象是用于存储轴标签和其它元数据的（例如轴名称和标签）。在构造Series或FataFrame时，使用的任意数组或标签序列，都可以在内部转换为索引对象。>>>obj = pd.Series(range(3), index=['a', 'b', 'c'])>>>index = obj.index>>>indexIndex(['a', 'b', 'c'], dtype='object')>&.

2020-07-25 00:29:11 306

原创 linux文件格式处理命令cut，grep，sed，awk：批量修改多文件中序列名

要处理一份10多个G序列数据的序列名，据说直接的linux命令是最快的，回头来复习一下这几个命令吧。什么是选取命令？就是将一段数据经过分析后，取出我们想要的或者经由分析关键词，取出我们想要的那一行。通常选取信息是针对一行一行来分析的，并不是整篇分析。**1 cut**cut命令可以将一段信息的某一段给它切出来，也就是将一行里面的数据进行分解，它是以行为单位处理数据的。常用的有两种：（1）对于有特定分隔字符的的文本，分隔后获取其第m‘区域’与n‘区域’的信息：cut -d '分隔的字符'.

2020-07-23 01:26:42 3781 1

原创利用python进行数据分析（十五）

第五章 pandas入门锣鼓喧天，鞭炮齐鸣，终于第五章了。pandas支持大部分NumPy语言风格的数组计算，尤其是数组函数以及没有for循环的各种数据处理。尽管pandas采用了很多NumPy的代码风格，但最大的不同在于pandas是用来处理表格型或异质型数据的，而NumPy更适合处理同质型的数值数组数据。使用前先导入pandas模块：>>>import pandas as pd5.1 pandas数据结构介绍pandas含有两个最常用的数据结构：Series和Data.

2020-07-21 23:51:30 401

原创利用python进行数据分析（十四）

第四章4.3 使用数组进行面向数组编程使用NumPy数组可以使你利用简单的数组表达式完成多种数据操作任务，而无需写大量循环。这种利用数组表达式来替代显式循环的方法，称为向量化。向量化的数组操作会比纯python的等价实现在速度上快一到两个数量级。4.3.1 将条件逻辑作为数组操作numpy.where函数是三元表达式 x if condition else y的向量化版本，假设我们有一个布尔值数组和两个数值数组：>>>xarr = np.array([1.1, 1.2, 1..

2020-07-21 00:45:40 493

原创利用python进行数据分析（十三）

第四章4.2 通用函数：快速的逐元素数组函数通用函数也称为ufunc，是一种在ndarray数据中进行逐元素操作的函数。常用的一元通用函数：函数名描述ads, fabs逐元素的计算整数、浮点数或者复数的绝对值sqrt计算每个元素的平方根（与 arr ** 0.5 相等）square计算每个元素的平方（与 arr ** 2 相等）exp计算每个元素的自然指数值 e xlog, log10, log2分别对应：自然对数（e为底）、对数10为底、对.

2020-07-19 00:09:40 257

原创利用python进行数据分析（十二）

第四章4.1.6 神奇索引神奇索引是NumPy中的术语，用于描述使用整数数组进行数据索引。假设有一个8X4的数组：

2020-07-18 01:08:25 235

原创利用python进行数据分析（十一）

第四章4.1.3NumPy数组运算数组允许我们进行批量操作而无需任何for循环，称之为向量化。在任何两个等尺寸的数组之间的算术操作都应用了逐元素的方式，带有标量计算的算术操作会把计算参数传递给数组的每一个元素。>>>arr = np.array([[1., 2., 3.], [4., 5., 6]])>>>arrarray([[1., 2., 3.], [4., 5., 6.]])>>>arr * arrarray([[ .

2020-07-15 23:26:05 702

原创利用python进行数据分析（十）

第4章 NumPy基础：数组与向量化计算NumPy，是Numerical Python的简称，它是目前python数值计算中最为重要的基础包，具有三个显著的优点：它的设计对于含有大量数组的数据非常有效，对于内存的使用少，它可以针对全量数组进行复杂计算而不需要写python循环。4.1 NumPy ndarry：多维数组对象NumPy的核心特征之一就是N-维数组对象--ndarry，ndarry是python中一个快速灵活的大型数据集容器，数组允许我们使用类似于标量的操作语法在整块数据上进行数学计算.

2020-07-14 00:14:36 359

原创利用python进行数据分析（九）

第三章3.3 文件读取与写入5）写入文件我们有时候需要将一些内容写入文件中：>>>with open('out_file.txt', 'w', encoding='utf-8') as output_file: output_file.write('Good Good Study' + '\n') output_file.write('Day Day Up!')然后我们打开out_file.txt会看到：Good Good StudyDay Day.

2020-07-12 23:23:01 379

原创利用python进行数据分析（八）

第三章3.3文件与操作系统微生物基因组1，从微生物基因组可以预测出微生物的底物利用模式，这对重建微生物代谢途径有重要价值。对大量培养困难或者不可培养的微生物的基因组分析，可以用来确定其培养条件。例如对耐辐射异常球菌的基因组分析，帮助确定了其在营养受限的辐射环境中保持生长的关键营养要素。2，DNA微阵列可以确定不同生长条件下基因的表达情况；也用于与参照基因组比较，发现不同菌株或物种间基因存在或缺失。通过用微阵列技术比较了在丰富培养基和基本培养基中的基因表达，获得了微生物在不同生长条件下的基因表.

2020-07-12 10:45:19 475

原创利用python进行数据分析（七）

3 函数3.2.7 错误和异常处理python使用被称为异常的特殊对象来管理程序执行期间发生的错误。也就是当我们编写的程序出现错误时返回的traceback，它提示给我们代码哪个地方出现了那种异常，如果我们不对此进行处理，程序则会终止。异常是使用try-except代码块处理的，try-except代码块让python执行指定的操作，同时告诉python发生异常时怎么办。因此，当使用了try-except代码块时，即便出现了异常，程序也将继续执行。做一个简单的例子，我们在python中执行5/0.

2020-07-10 23:14:31 421

原创统计基因组氨基酸频率-windows下可执行

一个统计基因组中氨基酸频率的小程序，windows下可执行忽略这随意的变量命名o(╯□╰)o#统计氨基酸频率#读取氨基酸序列get_file = input('输入文件名：')with open(get_file) as input_file: seq = [] for line in input_file: if line[0] != '>': seq.append(line.strip())seq1 = ''.join(seq)#统计氨基酸种类seq2 = set.

2020-07-10 11:32:44 1574

原创利用python进行数据分析（六）

第3章函数3.2.4 匿名函数匿名函数是一种通过单个语句生成函数的方式，其结果本身就是是返回值，不需要def定和return返回，调用更加方便。匿名函数使用lambda关键字定义，表达“我们声明一个匿名函数的意思”。其通用的格式为：<名称> = lambda <参数1 ... 参数n> ： <表达式>看如下例子：>>>def short_function(x): return x * 2>>> s.

2020-07-09 23:39:31 660

原创利用python进行数据分析（五）

为了函数这节内容，翻了四本书… …虽然这本书讲的不是最系统的，内容还是按着这本书的顺序来吧。3.2 函数函数是一段具有特定功能的、可复用的语句组。如果需要多次重复相同或者类似的代码，就非常值得写一个可复用的函数。函数定义通常的格式为：def <函数名>(<参数(0个或多个)>): <函数体> return <返回值>定义一个函数，计算(A+B)/C的值：>>>def cal_num(A, B, C=1): s.

2020-07-09 02:37:12 2141

原创利用python进行数据分析（四）

微生物基因组 - 历史1，1920年，基因组genome一词第一次引入学术界，它是由基因GENe和染色体chromosOME两个词组合而成的。2，1975年，两个独立的研究组分别宣布发明了DNA测序技术；1977年，sanger改进了测序技术，到1978年，已经可以从一块胶上读出几百个碱基了。3，1977年，sanger研究组完成了第一个全基因组–фX174噬菌体基因组，5386bp。4，1986年，第一台自动DNA测序仪诞生。1987年自动测序仪上市，每天可测1~2万个碱基。5，1986年，.

2020-07-06 22:19:34 662 2

原创利用python进行数据分析（三）

写在前面：其实能发现这本书的章节安排并没有很系统，有些地方我觉得再多写一些东西进去就更好了。。。恩，老老实实顺着书的目录往下去吧，得相信作者这样安排是有用意的。。第三章3.1.3 内建序列函数a) enumrate我们通常需要在遍历一个序列的同时追踪当前元素的索引，如打印成绩排名，常用使用添加一个flag的for循环的方式：>>>name_list = ['aa', 'bb', 'cc', 'dd']>>>dict_list={}>>&g.

2020-07-06 09:18:19 454

原创利用python进行数据分析（二）

第3章内建数据结构，函数及文件3.1.1 元组a) 元组是一种固定长度、不可变的python对象序列，创建元组最简单的办法就是用逗号分隔序列值，通常情况下用括号括起来更明了。b) 虽然元组中储存的对象其自身是可变的，如列表，但元组一旦被创建，各个位置的对象是无法被修改的：假设元组中某个位置对象为列表，那你可以在这个列表内部修改列表，但是不可以修改此处列表为其他对象。c) 使用“+”将两个元组连在一起，使用“*”乘以整数生成含有多个拷贝的元组，元组支持切片操作。>>>tup .

2020-07-04 00:13:12 415 1

原创利用python进行数据分析（一）

写在前面：作为一个练习时长两年半的生信生，对于shell，python，R都会一点，但都是半吊子水平，总想系统深入学习一下自己又总是懒，控制不了自己的时间安排。2020年已经过去一半了，自己也要马上博士二年级，不能再拖沓了，决定得踏实做点什么。买过的书不少，这本《利用python进行数据分析》买了一年多还是才看过几章，甚至懒得连里面的代码都没敲敲；还有一本《流畅的python》，当时还找颜宁老师签过名（不要问为啥拿这本书签的，我也头疼为啥我抽风要拿这本）却连翻都没翻过，每次想起来都会觉得愧疚。经过至少1.

2020-07-02 23:54:25 805

原创提取大序列文件的子集

有时候需要比较大的序列里提取出它的子集，通常是根据序列号来操作的，上代码：#存入字典def read_to_dict(in_file): sequence = {} ac = '' seq = '' for line in open(in_file): if line.startswith('>') and seq != '': sequence[ac] = seq seq = '' if line.startswith('>'): ac = line.st

2020-06-16 09:58:23 448

原创 BioPython（一）

1.1 Seq 对象Biopython处理序列的机制为Seq 对象，Seq对象支持常规字符串的很多方法，Seq 对象具有一个重要的属性–alphabet ，这一对象用于描述由单个字母构成的序列字符串的mean（意义），以及如何解释这一字符串。>>>from Bio.Seq import Seq>>>from Bio.Alphabet import IUPAC>>>my_seq = Seq("GATCG", IUPAC.unambiguous_d

2020-06-14 23:10:48 2039

liuninghua521的博客