每天都要学Python-优快云博客

原创【Python】批量提取指定网站上的特定信息

【Python】批量提取指定网站上的特定信息介绍理论上，凡是重复且有规律的事情都可以用编程来解决，编程的优势也在于可能大大降低在繁琐事情上所耗费的时间和精力。例如上图的网页，其中包含的表格有四千多页，并且没有提供所有表格信息的下载按钮，只能一页一页去复制，这时候，我们用爬虫就可以非常简单地解决这个问题：利用requests库获取网页内容，利用beautifulsoup库解析和获取网页中我们需要的信息，最后将其输入到一个文件中，针对多个网页只需要循环上述步骤即可。脚本内容#!/usr/bin/

2021-10-10 11:15:51 1467

原创【Python】利用requests库下载B站视频（半成品）

介绍写这篇博客的时候，导师突然发消息，导致现在没太大心情解释具体步骤了，先放这里，回头再更…脚本如下#!/usr/bin/env python3# -*- coding: utf-8 -*-'''Author: Guo YingweiDate: 2021-02-09 17:51:46E-mail: willgyw@126.comDescription: Download bilibili videoLastEditors: gywLastEditTime: 2021-02-25 19

2021-02-25 19:38:34 1120

原创【Python】利用滑动窗口计算全基因组每个窗口上CNV的拷贝数和Vst

目录Vst介绍计算每个窗口的绝对拷贝数1.文件准备2.编写脚本计算每个窗口的VstVst介绍Vst是通过计算拷贝数的方差来衡量不同群体之间CNV的分化的一个指标，类似于Fst的概念，可以用来鉴定一些高分化的区域。计算方法如下：Vpop1是指群体1的copy number的方差；Vpop2是指群体2的copy number的方差；Vtotal是全部个体的copy number的方差；Npop指的对应群体的个体数。部分文献中，会按照10K的窗口，2K的步长，去计算全基因组上每个窗口的Vst。而

2020-05-15 17:23:23 3478 5

原创【Python】click模块使用报错 TypeError: got an unexpected keyword argument

最近用python当中的命令行参数模块click写一个脚本，但是疯狂报错，焦头烂额之后终于找到了原因，在此做一个记录。脚本内容如下因为自己写的脚本很复杂，这里用click模块的官方demo作为例子。import click@click.command()@click.argument('Name')def hello(Name): print('Hello %s!' % ...

2019-12-11 10:41:20 36324 1

原创【Linux】有关grep的-f参数的一点细节

最近碰到了一个有关grep的-f参数一个细节上的问题，于是写出来和大家分享。简介我们先来看下-f参数的用法：• -f<范本文件>或–file=<范本文件> 指定范本文件，其内容含有一个或多个范本样式，让grep查找符合范本条件的文件内容，格式为每列一个范本样式。简单地说就是grep -f 1.txt 2.txt就可以打印出文件2中与文件1中的相同行。...

2019-07-19 15:21:48 10746 2

原创对 “自顶向下逐步求精” 的理解

最近看知乎某答主提到“自顶向下，逐步求精”的思想，很受启发，在这里写下自己的理解和感悟吧。什么是“自顶向下，逐步求精”？自顶向下把问题分解成一套子问题，然后把子问题分解成更小的问题。这一过程将一直持续到每个子问题足够基础，不再需要进一步分解为止。逐步求精将现实问题经过几次抽象（细化）处理，最后到求解域中只是一些简单的算法描述和算法实现问题。即将系统功能按层次进行分解，每一层不断将功能...

2019-07-15 10:31:09 1191

原创利用requests库和Xpath爬取猫眼电影榜单【Python】

博主的前几篇有关定向网络爬虫的博客，在解析HTML界面时，都是运用了BeautifulSoup和re库进行解析，这篇博客写一下怎么用Xpath语法进行HTML界面解析，从而得到我们想要的结果。说明爬取猫眼历史电影榜单，并将结果写入到文件中。放弃使用re和BeautifulSoup，采用Xpath语法进行解析页面。脚本如下'''@Author: Guo Yingwei@Date...

2019-07-13 11:36:24 1422 3

原创利用requsets、bs4、re库爬取豆瓣图书top250【Python】

因为最近在练习定向网络爬虫技术，爬了豆瓣电影之后，就是这爬豆瓣图书，具体请看介绍。介绍1.用到的库有requests，bs4中的BeautifulSoup，以及正则表达式re库。requests用来获取网页，BeautifulSoup用来解析页面，re用来匹配查找。2.值得注意的是，博主想把top250的图书的名字、评分、一句话简介提取出来，但是没有看到有的图书是没有一句话简介的，于是刚...

2019-07-09 18:47:59 1016

原创利用网络爬虫爬取中国天气网某个城市近7天的天气【Python】

继上一篇爬取豆瓣电影top250之后，这篇博客还是利用requests库和BeautifulSoup进行网络爬虫的练习，这次爬取的对象是中国天气网。说明1.用到的库：requests，BeautifulSoup，re。其中，requests库用于获取网页内容，BeautifulSoup用于网页解析，re正则表达式库用于对爬取内容进行匹配和搜索。2.正常情况下BeautifulSoup就可...

2019-07-09 13:37:25 13222 12

原创利用定向网络爬虫爬取豆瓣电影top250【Python】

最近在外地实习，闲来无事学了一下requests库和BeautifulSoup，掌握基本用法之后试着爬取了一下豆瓣电影top250，中间也参考了不少其他大佬的博客，所以最后写出来的代码也都大同小异吧，就当聊以自慰了。简介利用requests库和bs4中的BeautifulSoup，实现对豆瓣电影top250的爬取，最后将电影信息写入一个文本文件中。代码如下'''@Author ...

2019-07-07 08:07:28 2732

原创提取每条fasta序列的前500bp【Python】

最近看到同学用Perl写了一个提取fasta序列前500bp的脚本，于是自己用Python也写了一个实现相同功能的脚本。脚本内容如下："""@author: will@Date: July 2019@E-mail: willgyw@126.com@Description: """import sysseq = {}res = open('500bp.fa', 'w')...

2019-07-03 22:07:20 1423

原创利用pandas获取表格中每一行数据的最大值【python】

pandas可以说是python当中的表格处理神器，利用pandas可以实现很多使用的功能，下面脚本就是利用pandas找出每一行数据的最大值。脚本一import pandas as pddf = pd.read_csv('all_rc.tsv', index_col=0, header=0, sep='\t')output=open('out.tsv','w')for i in ran...

2019-04-27 21:42:55 20007

原创从fastq文件中批量提取/过滤序列【python】

博主也是刚刚接触生信，会将自己平时练习用到的python脚本发布到博客上，用来记录自己的学习之路。介绍测序回来的fastq文件通常在分析之前，需要进行过滤，该脚本利用python实现从压缩的fastq文件中提取指定ID的序列，并保存为新的压缩格式的fastq文件。说明输入文件为fq.gz文件，压缩的ID list文件。必须是压缩格式的文件才可以，如果非压缩格式，可以压缩成gz格式后...

2019-03-09 18:10:58 9960 3

原创根据ID从FASTA文件中批量提取序列【Python脚本】

博主是一个刚刚接触生信的新手，正在学习Linux和Python，偶尔会在该博客上面发布自己练习编程写的脚本，用来记录自己的学习之路。介绍根据序列的ID号从FASTA文件中批量提取序列是在平时常常要做的工作，Linux当中grep和awk工具、Perl语言和Python语言都可以实现，以下是博主用Python实现的从FASTA文件中批量提取序列的脚本。说明需要用到fasta文件和ID的...

2019-02-27 19:21:11 13309 8

原创摩尔斯电码转换的小程序【python编写】

摩尔斯电码转换的小程序博主是一个刚刚接触生信的新手，正在学习Linux和Python，平时会发布一些自己练手的脚本，用来记录自己的学习之路。介绍下面是一个用python写的进行英语和摩尔斯电码转换的程序，纯属练习和娱乐，如有错误欢迎指正。说明输入的英语只能是单词，标点符号无法识别！转换出的摩尔斯电码字母之间用空格区分，单词之间用/区分。脚本如下# program for c...

2019-02-13 14:22:56 10381 2

每天都要学Python的博客