- 博客(15)
- 资源 (2)
- 收藏
- 关注
原创 【Python】批量提取指定网站上的特定信息
【Python】批量提取指定网站上的特定信息介绍理论上,凡是重复且有规律的事情都可以用编程来解决,编程的优势也在于可能大大降低在繁琐事情上所耗费的时间和精力。例如上图的网页,其中包含的表格有四千多页,并且没有提供所有表格信息的下载按钮,只能一页一页去复制,这时候,我们用爬虫就可以非常简单地解决这个问题:利用requests库获取网页内容,利用beautifulsoup库解析和获取网页中我们需要的信息,最后将其输入到一个文件中,针对多个网页只需要循环上述步骤即可。脚本内容#!/usr/bin/
2021-10-10 11:15:51
1467
原创 【Python】利用requests库下载B站视频(半成品)
介绍写这篇博客的时候,导师突然发消息,导致现在没太大心情解释具体步骤了,先放这里,回头再更…脚本如下#!/usr/bin/env python3# -*- coding: utf-8 -*-'''Author: Guo YingweiDate: 2021-02-09 17:51:46E-mail: willgyw@126.comDescription: Download bilibili videoLastEditors: gywLastEditTime: 2021-02-25 19
2021-02-25 19:38:34
1120
原创 【Python】利用滑动窗口计算全基因组每个窗口上CNV的拷贝数和Vst
目录Vst介绍计算每个窗口的绝对拷贝数1.文件准备2.编写脚本计算每个窗口的VstVst介绍Vst是通过计算拷贝数的方差来衡量不同群体之间CNV的分化的一个指标,类似于Fst的概念,可以用来鉴定一些高分化的区域。计算方法如下:Vpop1是指群体1的copy number的方差;Vpop2是指群体2的copy number的方差;Vtotal是全部个体的copy number的方差;Npop指的对应群体的个体数。部分文献中,会按照10K的窗口,2K的步长,去计算全基因组上每个窗口的Vst。而
2020-05-15 17:23:23
3478
5
原创 【Python】click模块使用报错 TypeError: got an unexpected keyword argument
最近用python当中的命令行参数模块click写一个脚本,但是疯狂报错,焦头烂额之后终于找到了原因,在此做一个记录。脚本内容如下因为自己写的脚本很复杂,这里用click模块的官方demo作为例子。import click@click.command()@click.argument('Name')def hello(Name): print('Hello %s!' % ...
2019-12-11 10:41:20
36324
1
原创 【Linux】有关grep的-f参数的一点细节
最近碰到了一个有关grep的-f参数一个细节上的问题,于是写出来和大家分享。简介我们先来看下-f参数的用法:• -f<范本文件>或–file=<范本文件> 指定范本文件,其内容含有一个或多个范本样式,让grep查找符合范本条件的文件内容,格式为每列一个范本样式。简单地说就是grep -f 1.txt 2.txt就可以打印出文件2中与文件1中的相同行。...
2019-07-19 15:21:48
10746
2
原创 对 “自顶向下 逐步求精” 的理解
最近看知乎某答主提到“自顶向下,逐步求精”的思想,很受启发,在这里写下自己的理解和感悟吧。什么是“自顶向下,逐步求精”?自顶向下把问题分解成一套子问题,然后把子问题分解成更小的问题。这一过程将一直持续到每个子问题足够基础,不再需要进一步分解为止。逐步求精将现实问题经过几次抽象(细化)处理,最后到求解域中只是一些简单的算法描述和算法实现问题。即将系统功能按层次进行分解,每一层不断将功能...
2019-07-15 10:31:09
1191
原创 利用requests库和Xpath爬取猫眼电影榜单【Python】
博主的前几篇有关定向网络爬虫的博客,在解析HTML界面时,都是运用了BeautifulSoup和re库进行解析,这篇博客写一下怎么用Xpath语法进行HTML界面解析,从而得到我们想要的结果。说明爬取猫眼历史电影榜单,并将结果写入到文件中。放弃使用re和BeautifulSoup,采用Xpath语法进行解析页面。脚本如下'''@Author: Guo Yingwei@Date...
2019-07-13 11:36:24
1422
3
原创 利用requsets、bs4、re库爬取豆瓣图书top250【Python】
因为最近在练习定向网络爬虫技术,爬了豆瓣电影之后,就是这爬豆瓣图书,具体请看介绍。介绍1.用到的库有requests,bs4中的BeautifulSoup,以及正则表达式re库。requests用来获取网页,BeautifulSoup用来解析页面,re用来匹配查找。2.值得注意的是,博主想把top250的图书的名字、评分、一句话简介提取出来,但是没有看到有的图书是没有一句话简介的,于是刚...
2019-07-09 18:47:59
1016
原创 利用网络爬虫爬取中国天气网某个城市近7天的天气【Python】
继上一篇爬取豆瓣电影top250之后,这篇博客还是利用requests库和BeautifulSoup进行网络爬虫的练习,这次爬取的对象是中国天气网。说明1.用到的库:requests,BeautifulSoup,re。其中,requests库用于获取网页内容,BeautifulSoup用于网页解析,re正则表达式库用于对爬取内容进行匹配和搜索。2.正常情况下BeautifulSoup就可...
2019-07-09 13:37:25
13222
12
原创 利用定向网络爬虫爬取豆瓣电影top250【Python】
最近在外地实习,闲来无事学了一下requests库和BeautifulSoup,掌握基本用法之后试着爬取了一下豆瓣电影top250,中间也参考了不少其他大佬的博客,所以最后写出来的代码也都大同小异吧,就当聊以自慰了。简介利用requests库和bs4中的BeautifulSoup,实现对豆瓣电影top250的爬取,最后将电影信息写入一个文本文件中。代码如下'''@Author ...
2019-07-07 08:07:28
2732
原创 提取每条fasta序列的前500bp【Python】
最近看到同学用Perl写了一个提取fasta序列前500bp的脚本,于是自己用Python也写了一个实现相同功能的脚本。脚本内容如下:"""@author: will@Date: July 2019@E-mail: willgyw@126.com@Description: """import sysseq = {}res = open('500bp.fa', 'w')...
2019-07-03 22:07:20
1423
原创 利用pandas获取表格中每一行数据的最大值【python】
pandas可以说是python当中的表格处理神器,利用pandas可以实现很多使用的功能,下面脚本就是利用pandas找出每一行数据的最大值。脚本一import pandas as pddf = pd.read_csv('all_rc.tsv', index_col=0, header=0, sep='\t')output=open('out.tsv','w')for i in ran...
2019-04-27 21:42:55
20007
原创 从fastq文件中批量提取/过滤序列【python】
博主也是刚刚接触生信,会将自己平时练习用到的python脚本发布到博客上,用来记录自己的学习之路。介绍测序回来的fastq文件通常在分析之前,需要进行过滤,该脚本利用python实现从压缩的fastq文件中提取指定ID的序列,并保存为新的压缩格式的fastq文件。说明输入文件为fq.gz文件,压缩的ID list文件。必须是压缩格式的文件才可以,如果非压缩格式,可以压缩成gz格式后...
2019-03-09 18:10:58
9960
3
原创 根据ID从FASTA文件中批量提取序列【Python脚本】
博主是一个刚刚接触生信的新手,正在学习Linux和Python,偶尔会在该博客上面发布自己练习编程写的脚本,用来记录自己的学习之路。介绍根据序列的ID号从FASTA文件中批量提取序列是在平时常常要做的工作,Linux当中grep和awk工具、Perl语言和Python语言都可以实现,以下是博主用Python实现的从FASTA文件中批量提取序列的脚本。说明需要用到fasta文件和ID的...
2019-02-27 19:21:11
13309
8
原创 摩尔斯电码转换的小程序【python编写】
摩尔斯电码转换的小程序博主是一个刚刚接触生信的新手,正在学习Linux和Python,平时会发布一些自己练手的脚本,用来记录自己的学习之路。介绍下面是一个用python写的进行英语和摩尔斯电码转换的程序,纯属练习和娱乐,如有错误欢迎指正。说明输入的英语只能是单词,标点符号无法识别!转换出的摩尔斯电码字母之间用空格区分,单词之间用/区分。脚本如下# program for c...
2019-02-13 14:22:56
10381
2
Xshell5.zip
2020-04-02
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人