- 博客(40)
- 收藏
- 关注
原创 文献精读(1)MRD,NSCLC
Longitudinal Undetectable Molecular Residual Disease Defines Potentially Cured Population in Localized Non–Small Cell Lung Cancer
2022-08-03 14:33:23
356
原创 文献精读(2)The context-specific role of germline pathogenicity in tumorigenesis_20220805
The context-specific role of germline pathogenicity in tumorigenesis
2022-08-03 13:56:36
237
原创 深度学习入门-感知机
斋藤康毅的书终于到了!《深度学习入门-基于Python的理论与实现》刚读了一章就觉得深入浅出,好书啊!一直搞不懂的与、或、非与、异或都弄明白了。在这里记录一下算法实现吧~~【感知机】英文:perceptron定义:又称人工神经元/朴素神经元,可以接收多个输入信号,输出一个信号。其运行原理简单表示为:其中θ是阈值,当把θ移到左边,称作偏置,偏置b=-θ,如下所示:使用感知机来思考逻辑电路的问题,包括与门、与非门和或门。1、与门#x1和x2均为1时,y才输出1def AND(x1,x2):
2022-03-09 10:19:08
1515
原创 测序中,什么是“测通”
今天继续研究DNA测序分析流程,有个步骤引起注意使用Stithcer软件对测通的双端reads进行组装及过滤…里面的“测通”是什么意思呢?询问了几位前辈,发现我一直以来脑子里对于双端测序都有两个版本的认识混乱存在着。顺次厘清“双端测序”、“插入序列”、“测通”这几个概念。双端测序高通量测序在建库时对DNA随机打断成fragment(F),。。后面再议这里的关键在于理解,如何判断read1和read2是不是一个pair?我之前以为是通过是否有overlap、然后overlap部分识别拼接后合并
2022-02-14 14:15:29
10568
原创 为什么基因组测序中reads尾部常见polyG
为什么基因组测序中reads尾部常见polyG起因经过结果起因熟悉使用fastp,该软件可对双端测序数据进行trim处理。其参数中有一项为trim_poly_g。过去常做RNA-seq,知道mRNA加工时会产生polyA尾,但DNA为什么会有polyG?感到困惑。经过google进行百度,意外得到了fastp作者对此问题的回答,进行理解和翻译如下结果。结果Nextseq和Novaseq(四年前,最新机器不确定)是双色系统,在双色系统中:绿色 T红色 C黄色(红+绿) A黑色(无红&am
2022-02-09 15:22:53
2626
原创 matplotlib画箱线图,添加非参数检验-秩和检验的结果
生信分析中,画箱线图是常见的需求。最早图简单用seaborn画箱线图。最近下定决心学matplotlib了,所以还是给出matplotlib版本的尝试,但是部分用法还是稚嫩,可能用了笨办法,欢迎大家指正。
2021-11-23 09:46:10
3038
原创 Pandas 和 Numpy的标准差计算结果不一样
Pandas 和 Numpy的标准差计算竟然不一样!今天计算CV(变异系数),其定义如下:CV=σ/μ.CV= σ/μ.CV=σ/μ.其中σ是标准差, μ是均值。用pandas来实现对df的CV计算,为了验证准确性,抽了一列用np.array.std()检验,发现二者计算结果竟然不一样!#pandascur_res['mean']=df.mean().valuescur_res['std']=df.std().valuescur_res['cv']=df.std().values/arr
2021-11-12 11:24:31
1979
原创 GO分析-植物部分-水稻
最近忙毕业论文,有个植物学好友需要跑水稻的GO分析,我此前没做过,所以就研究了下,记录一下步骤。朋友提供给了我58个基因。1、id转换58个基因为msu的命名格式,需要转换为entrezid,但是没有直接的办法,所以分两步转换。(1)msu到uniprot的转换http://structuralbiology.cau.edu.cn/PlantGSEA/(2)uniprot到entrezid或symbolhttps://david.ncifcrf.gov/结果:共58个基因,第一步剩余54个,
2021-03-24 13:27:28
3897
原创 利用deeptools来做基因在genome上的分布图
需要做一个感兴趣的基因的测序数据在基因组上的分布profile,deeptools可以解决这个问题,记录一下过程。1、安装deeptoolspip install deeptools2、准备bw和bed文件(1)bwbw即样本测序数据的bigwig文件,之前做过,也是用deeptools的bamCoverage就可以实现。bamCoverage -b sample.bam -o sample.bw(2)bedbed即感兴趣的基因在genome上的位置,我先用10个基因测试,10个基因的en
2021-03-23 21:04:38
5299
1
原创 leetcode刷sql(1543)-trim去除空格的用法
今天这道题让我学习了trim()的用法先介绍trim():trim() 去除前后空格(保留中间空格)ltrim() 去除左边空格rtrim() 去除右边空格replace(… , ’ ‘,’’) 去除全部空格,可实现相同功能然后上题目这个题目里还有一个要求,转换大小写,用到的函数lower()另外需要注意的一点是,mysql 的 group by、order by 后面不能跟别名,须得写全。以下是答案:select lower(trim(product_name)) pro
2020-12-18 11:27:11
291
原创 leetcode刷sql(1613)--找到遗失的id
找到遗失的id做这道题时,学到了recursive的使用方法sql中with xxxx as () 是对一个查询子句做别名,同时数据库会对该子句生成临时表with recursive 则是一个递归的查询子句,它会把查询出来的结果再次代入到查询子句中继续查询。可以这样理解,dep=n+1是dep=n的递归调用sqlwith recursive t1 as ( select 1 as n union all select n + 1 from t1 where n &l
2020-12-15 20:33:57
316
原创 matplotlib在jupyternotebook中import失败
手贱把matplot.colors.Colormap给改了,然后import失败卸载重装怎么都装不回来,刚成功conda install matplotlib
2020-12-05 12:15:26
245
原创 leetcode刷sql(1511)-having里的条件判断
今天遇到一道题目,打开了having使用的新世界本来设想中是比较复杂的临时表。看题解学到了having的筛选用法。select c.customer_id,c.namefrom customers cjoin orders o on c.customer_id=o.customer_idjoin product p on o.product_id=p.product_idgroup by c.customer_id,c.namehaving sum(if(left(order_date,
2020-10-30 10:06:17
505
原创 leetcode刷sql(1435)--case when 用法
今天刷sql,一道题目解答的时候用到case when,这样的写法 case when duration/60<5 then '[0-5>' when duration/60<10 then '[5-10>' when duration/60<15 then '[10-15>' else '15 or more' end bin,这种写法里面有个让人困惑的点,第一条包括<5的,第
2020-10-26 09:22:18
288
原创 datediff()函数的使用
今天刷leetcode的sql, 看到一道题目,题目的难点在于,近30天这个条件的满足。学习到一个新的函数----datediff():函数返回两个日期之间的天数。【语法】 DATEDIFF(date1,date2)注释:只有值的日期部分参与计算。SELECT DATEDIFF('2008-11-30','2008-11-29') AS DiffDateSELECT DATEDIFF('2008-11-29','2008-11-30') AS DiffDate以上两条,第一条输出1,第二条
2020-10-21 09:43:33
14588
4
原创 groupby以后为什么需要用sum()等聚合函数取数?
今天刷leetcode的sql题目,遇到一道题,相当于要格式化整个列表,行转列。自然想到用id分组。先放答案:select id,sum(case when month='Jan' then revenue end) Jan_Revenue,sum(case when month='Feb' then revenue end) Feb_Revenue,sum(case when month='Mar' then revenue end) Mar_Revenue,sum(case when m
2020-10-21 09:25:05
1620
原创 (五)PCA项目-利用PCA压缩图片
上周浙大机器学习课程看到–PCA,今天开始总结一下基础知识,和简单的项目应用。此前在生物信息学中也经常应用,最近一次的使用是在挑选样本时,看不同样本间的相关性/平行性。【PCA的算法流程】输入:n维样本集X=(x1,x2,…,xm),要降维到的维数n’.输出:降维后的样本集Y1、对所有的样本进行中心化 2、计算样本的协方差矩阵3、求出协方差矩阵的特征值及对应的特征向量4、将特征向量按对应特征值大小从上到下按行排列成矩阵,取前k行组成矩阵P5、Y=PX 即为降维到k维后的数据注意:有时
2020-10-19 11:12:50
939
原创 (四)SVM-鸢尾花分类
今天继续是SVM,救命啊我什么时候才能提起精神推一遍算法。。Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。数据集包含150个数据集,分为三类,每类50个数据,每个数据包含4个属性。可通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花属于三个种类中的哪一类。import numpy as npimport pandas as pdfrom sklearn.datasets import load_irisfrom sklearn.model_selection import
2020-10-12 10:34:19
3093
原创 (三)SVM项目-乳腺癌预测
今天继续练习SVM的使用,打算明天过一遍算法推导,这之前还是多做项目,熟悉使用方法。数据来自UCI repository http://archive.ics.uci.edu/ml/datasets/breast+cancer+wisconsin+%28diagnostic%29【导入并查看数据】from sklearn import svmimport pandas as pdimport numpy as npimport seaborn as snsimport matplotlib.p
2020-10-10 16:26:06
5419
4
原创 (二)SVM项目:客户购买预测数据
【问题描述】根据一个客户的性别,年龄,和工资的数据,可以预测他是否会购买你的产品。根据客户的信息,预测他是否倾向于购买我们的产品。根据预测结果进行不同的处理,从而减少公司的推广成本。数据说明数据集是csv文件。User ID --用户IDGender --用户性别Age --用户年龄EstimatedSalary --估计薪资Purchased --是否购买(布尔量)import numpy as npimport matplotlib.pyplot as pltimport p
2020-10-09 15:43:48
1844
原创 Numpy学习笔记-np.arange()
今天开始做SVM的入门项目,在进行可视化时,遇到在arange下的start/stop参数,之前没深入学过,正好整理一下。x1,x2=np.meshgrid(np.arange(start=x_set[:,0].min()-1,stop=x_set[:,0].max()+1,step=0.01), np.arange(start=x_set[:,1].min()-1,stop=x_set[:,1].max()+1, step=0.01))np.aran
2020-10-09 14:14:24
1261
2
原创 sklearn学习笔记-混淆矩阵
今天开始做SVM的小项目,遇到了混淆矩阵之前在学习商务与经济统计的时候其实遇到过,关于一类错误、二类错误其中第一类错误(FN)又称作假阴性,第二类错误(FP)又称作假阳性。代码实现...
2020-10-09 13:41:44
646
原创 SVM,SVC,SVC之间的区别
今天开始做svm的入门项目,训练时用到的代码如下#对数据进行训练from sklearn.svm import SVCclassifier=SVC(random_state=0)classifier.fit(x_train,y_train)#预测结果y_pred=classifier.predict(x_test)其中,调用了sklearn中的SVC,整理了一下他们的关系:SVM=Support Vector Machine 是支持向量SVC=Support Vector Classif
2020-10-09 13:07:43
5433
原创 (一)神经网络项目:手写数字识别
人工神经网络-手写数字识别代码部分模块导入神经网络定义神经网络初始设置训练神经网络’测试神经网络并计算准确率测试自己的手写数字附:用matplotlib查看图片代码部分模块导入#!/usr/bin/env python# coding: utf-8import numpy as np#scipy.special for the sigmoid function expit()import scipy.special as ssimport matplotlib.pyplotget_ipyt
2020-09-29 11:55:56
312
原创 leetcode 数据库:sql知识记录
178、排名问题涉及到排名,就使用窗口函数select rank() over (order by 成绩 desc) as 'rank',dense_rank() over (order by 成绩 desc) as 'dense_rank',row_number() over (order by 成绩 desc) as 'row_number'from Scores
2020-09-16 10:25:54
174
原创 seaborn箱线图缩小两个箱子间距,使得图像更紧密
最近完善论文里的图,需要画箱线图,使用seaborn。一直画出来两个箱子间隔很大的图,最终找到解决办法:1)aspect改变两个箱子的间距2)fliersize=0删除图里的异常值def drawboxline(da,a,b): aa='Class '+a+' in MCF10A' bb='Class '+b+' in MCF7' da.columns=[aa,bb] ns.factorplot(kind='box',data=da,palette={aa:'white
2020-08-24 22:42:26
4826
原创 经典泰坦尼克数据集生存率预测
今天发现投的实习都gg了,正式开始学机器学习啦。之前coursera的吴恩达其实学过的,python基础也有的,所以直接开始搞项目。kaggle登不上去,打算从天池和科赛开始模仿起。第一个项目,泰坦尼克号生存率预测,三种算法:1、线性回归2、逻辑回归3、随机森林【数据预处理】import pandas as pdimport numpy as nppath1='D:/data_analysis/jupyter_notebook/machine_learning/dataset//tita
2020-08-18 13:54:18
1487
原创 简单线性回归及作图
import numpy as np#原始数据X=[ 1 ,2 ,3 ,4 ,5 ,6]Y=[ 2.6 ,3.4 ,4.7 ,5.5 ,6.47 ,7.8]#用一次多项式拟合,相当于线性拟合z1 = np.polyfit(X, Y, 1)#使用一次多项式拟合p1 = np.poly1d(z1)#得到多项式系数print (z1) #[ 1. 1.49333333]print (p1) # 1 x + 1.493...
2020-08-18 08:55:11
1440
原创 pandas dataframe 里的resample 到底干嘛用的
O‘Reilly 的《利用python进行数据分析》一书中是这样说的。【重新采样】是指将时间序列从一个频率转换为另一个频率的过程【向下采样】将更高频率的数据聚合到低频率【向上采样】将低频率转换到高频率resample拥有类似于groupby 的API;调用resample对数据分组,之后再调用聚合函数。----------示例------------rng=pd.date_range('2000-01-01',periods=100,freq='D')ts=pd.Series(np.rand
2020-08-12 11:17:52
1212
原创 python3 函数传参 先后顺序
当args与位置参数和默认参数混用的情况下:【示例一】(三者顺序是:位置参数、默认参数、*args)def foo(x,y=1,*args): passfoo (1,2,3,4,5) // 其中的x为1,y=1的值被2替换,3,4,5都给args,即args=(3,4,5)【示例二】(三者顺序是:位置参数、*args、默认参数)def foo(x,*args,y=1): passfoo (1,2,3,4,5 // 其中的x为1,2,3,4,5都给args,即args=(2,
2020-08-11 13:44:24
1423
原创 python 打开文件的访问模式
|在python中,使用open方法打开文件,语法如下:open(文件名,访问模式)参数访问模式详解b二进制模式r只读,指针将会放在文件的开头rb二进制只读,指针将会放在文件的开头r+读写,指针将会放在文件的开头rb+二进制读写,指针将会放在文件的开头w写入, 如果该文件已存在则打开文件,并从开头开始编辑,即原有内容会被删除。如果该文件不存在,创建新文件wb二进制写入,如果该文件已存在则打开文件,并从开头开始编辑,即原有内容会被
2020-08-11 13:30:59
619
原创 刷牛客网python编程题遇到的one hot矩阵(独热编码)
今天开始刷牛客上的python题目,遇到一道题。import numpy as npa = np.repeat(np.arange(5).reshape([1,-1]),10,axis = 0)+10.0 b = np.random.randint(5, size= a.shape)c = np.argmin(a*b, axis=1)b = np.zeros(a.shape)b[np.arange(b.shape[0]), c] = 1print b以上函数输出结果为()A.Hello Wo
2020-08-11 13:18:10
842
原创 刷leetcode的小tip,为什么二分查找常用left+(right-left)//2而不是(left+right)//2
最近用python刷了200多道leetcode,二分查找的题目里,我习惯用(left+right)//2,感觉理解起来更直观,可是看大佬解法,总喜欢用left+(right-left)//2,一直不知道为什么,今天刷题在评论区看到了解释,left+right 当left和right都很大的时候,可能会造成越界。虽然说python3自动转换整数和长整数不需要考虑溢出,这么写有些多余,可是算法并不局限于某一种语言,而是一种思想,所以以后还是要具备这种思想。...
2020-08-11 09:17:43
4246
6
原创 做牛客网sql实战题目:初识窗口函数
牛客网的sql在线实战刷到倒数第二题了,遇到一道需要用窗口函数的题目,虽然用groupby也可以做出正确答案,但还是本着学习新知识的原则,学了下窗口函数。ps:吐槽一波牛客的sql题目好多都叙述不清参考:https://zhuanlan.zhihu.com/p/92654574【用法】<窗口函数> over (partition by <用于分组的列名> order by <用于排序的列名>)【可用函数】<窗口函数>
2020-08-10 22:01:10
290
原创 mysql在Windows系统下发生2002错误的解决办法
用SQLyog连接显示登不上localhost,错误码是2002。已经好几次了,今天想办法解决这个问题。打开cmdnet start mysql显示’系统拒绝访问 5’。切换系统管理身份打开,再输入开启代码,成功打开。...
2020-08-10 19:49:56
4340
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人