- 博客(75)
- 问答 (1)
- 收藏
- 关注
原创 【git】git管理规范--分支命名规范、CommitMessage规范
Subject(主题):简洁描述提交的目的,不超过 50 个字符。Scope(范围):说明提交的影响范围(可选)。功能分支(Feature)示例 2:修复 bug。
2025-03-18 15:49:11
743
原创 【bioinfo】变异检测软件汇总
考虑了测序数据的复杂性,如测序深度、碱基质量和比对质量等。Pindel新文献:https://github.com/xjtu-omics/pindel。软件地址:https://github.com/freebayes/freebayes。:一款高效的变异检测软件,适用于多种类型的变异检测,包括SNP、INDEL等。SyRi、Platypus、LUMPY、RADAR、Sniffles、MosaicSuite、SVIM、SomaticSniper、SomaticSeq、CNVkit。
2024-10-15 18:06:18
1738
原创 【bioinfo】DNBSEQ测序原理/Barcode/index hopping
通过滚环扩增技术,将单个DNA片段扩增成大量的拷贝,形成一个DNA纳米球(DNB)。将扩增后的DNB固定在测序芯片上,形成一个二维的DNB阵列。每个DNB在芯片上占据一个特定的位置,形成一个高密度的测序阵列。首先,从生物样本中提取DNA,并进行片段化处理,将长链DNA切割成较短的片段。在片段化的DNA两端连接上特定的接头(adapter)。荧光基团去除:在检测到荧光信号后,荧光基团被化学方法去除,以便进行下一个碱基的添加和检测。引物结合:在每个DNB上加入测序引物,引物与DNB上的DNA片段结合。
2024-09-19 10:33:40
1769
原创 【python】pyinstaller编译后py脚本中的shell命令报错symbol lookup error
出现该文件主要是本地编译的环境,和使用的镜像环境不统一导致。后续问题:如何确认两个环境是否统一?(上面的配置文件为什么可以解决上面的问题?
2024-07-15 15:00:52
286
原创 【学习计划】文献阅读:癌症生物标志物文献综述
Tumor biomarkers for diagnosis, prognosis and targeted therapy 公众号解读:https://mp.weixin.qq.com/s/3uGnfvW70hj1UhqPuHwz-g。标题英文:Tumor biomarkers for diagnosis, prognosis and targeted therapy。标题中文:癌症生物标志物 : 个性化治疗的新兴趋势和临床意义。标题中文:癌症检测、诊断和预后中的生物标志物。日期:2024-05-20。
2024-06-25 18:28:52
454
原创 【linux】docker run报错cannot execute binary file解决办法
地址(registry.aaa.com/name/myimage:v1)创建Dockerfile时发现无法获取,然后有docker tag新加了tag是。dfimage是一个alpine的镜像,启动的时候,通过将docker.sock映射到容器内部来运行,通常将这个操作做成别名。参考:https://cloud.tencent.com/developer/article/1828945。地址(registry.xxx.com/name/myimage:v1)就可以创建了。,需要修改Dockerfile。
2024-06-25 18:03:20
353
原创 【bioinfo】收藏生信常用网址
sam flag值对应信息: https://broadinstitute.github.io/picard/explain-flags.html。samtools构建的索引.fai文件格式:https://www.htslib.org/doc/faidx.html。使用NCBI-blat进行序列比对:http://genome.ucsc.edu/cgi-bin/hgBlat。samtools使用:http://www.htslib.org/doc/samtools.html。基因组组装、注释和可视化。
2024-01-24 19:07:20
1401
原创 【linux】SSH终端Putty配置:文件上传/下载、显示中文字体、自动登录
一篇博客介绍了12种SSH终端工具的比较注:Aechoterm官网上说是有一些色调可调的,可能是后期更新的。一般远程服务器终端最常用的是xshell,功能更全面,而使用Putty主要是轻量级,没有那么多复杂的功能。每个人使用需求不同可进行不同的选择。下面是在windows下的putty配置。
2023-12-14 18:42:29
7878
原创 【python】numpy常用属性
对应mlst列表中的数据落在bined对应数值(区域)的索引。:生成随机数前,指定随机种子为int,用于固定随机输出值。:按指定比例获取数据列表的分位数值。指定是否返回:原数组元素对应的去重后的索引。注意:固定种子后,多次随机生成的值相同。:生成int个[0,1)之间的随机数。生成全为0的数组,可以指定多个维度。: 获取指定区间和步长的列表。注意:多次随机输出的数据不同。:打乱原来的list顺序。获取相同形状的数组。
2023-10-25 10:53:49
885
原创 【python】可视化-绘制带有边权重的无向图
*示例数据1:**3个特征之间的关系数据 (**示例数据2:**4个特征之间的关系数据 (输入数据表(矩阵),绘制无向图。
2023-10-08 18:15:58
1443
原创 【python】使用Nuitka打包python项目-demo示例
使用Nuitka打包python项目。本文的demo示例的代码/数据可从笔者的GitCode获取:HelloWorld。
2023-09-20 15:09:32
1665
1
原创 【python】jupyter notebook导出pdf和pdf不显示中文问题
使用jupyter notebook导出pdf时,出现了一些问题:1)会报错,缺少安装包;2)没有报错并且生成了pdf,但是只显示英文,不显示中文。下面是给出了一些网搜后适用自己的解决办法。
2023-08-23 11:35:57
14841
12
原创 【python】从Ensembl上,根据Array HumanMethylation450甲基化探针cg编号(比如cg13788592)获取位置
一篇专利1中提到多种癌种及对应的特异性CpG位点,想获取对应cg位点具体的位置或序列。专利中的一组CpG markers如下:需求就是:将这些cg编号作为文件输入,获取对应的序列和位置信息。
2023-07-14 17:42:14
1881
原创 【python】dataframe重复索引修改
比如有如下数据表,其中index有重复,且重复的次数不等。需求是:将相同的index进行批量修改,修改为不同的index。比如,给每个相同的idnex加一个后缀(1,2,3,…):其中,index_column为修改后的索引,index则对应按数值0,1,2,…的索引。(当然也可以用drop去除)
2023-07-12 10:44:58
1558
原创 【python】matplotlib 绘制火山图、条形图、直方图
绘制火山图,输入是两个datafreme,行是样本名,列是基因名。使用T-test检验绘制基因表达情况。代码问题:左右标签没有对齐。
2023-06-28 14:05:21
1341
原创 【python】数据预处理:分位数归一化 Quantile Normalization + INSCODE AI创作助手测试
这里主要了解一下分位数归一化(。如无特殊说明时,本文中的QN作为分位数归一化的缩写。Quantile Normalization 直接翻译是 分位数归一化,但也有翻译为分位数标准化。笔者理解是按直译叫分位数归一化,但是按数据的处理方式,应该叫分位数标准化,按英文的话就一种:Quantile Normalization。之所以有标准化和归一化两种说法,是因为它们是两种不同的处理方式。本文暂统一名称叫分位数归一化(QN)。
2023-05-31 16:57:43
7546
原创 【bioinfo】二代测序在肿瘤突变检测中的错误来源和解决策略
文献介绍了NGS检测工作流程中的错误来源,以及非NGS检测方法介绍及其优缺点。具体包括:1)序列伪影(artifacts,假象/错误的/人为加工过的)产生的来源组织和DNA处理:FFPE/福尔马林固定、DNA超声波打断NGS处理过程:PCR扩增、测序错误随机低水平的假基因突变(NGS常规流程无法识别)妥协的NGS下限(LOD)(NGS的下限LOD受到限制)实时多特异PCR;ddPCR:微滴数字PCR;BEAMing:数字PCR流式技术(ddPCR的简易版);3)非NGS的优缺点。
2023-03-24 15:35:22
1488
原创 【bioinfo】融合检测软件FusionMap分析流程和报告结果
下面主要内容是关于RNA-seq数据分析融合,用到软件是FusionMapFusionMap参考文献融合分析使用哪个软件,哪个软件表现较好,在Biostarts发现一个问答列举了一些软件(看这里),里面有STAR-Fusion, STAR-Fusion, deFuse, FusionCatcher等30多个融合分析软件,其中约20多个软件的文献发表于2011-2013年,FusionMap软件的文献也发表与2011年。
2023-03-09 09:26:11
1322
原创 【python】根据数据自定义绘制ROC和最优阈值
f1-score: 2TP/(2TP+FP+FN),混合度量,对不平衡类别有效。【2倍的真阳性/(2倍的真阳+真实为阳预测为阴[假阴]+预测为阳真实为阴[假阳])】绘图示例:图中的红点为最优点,对应的由下角是阈值、横坐标和纵坐标的值。precision: 精准率,precision=TP/(TP+FP), 预测的阳性中,是真的阳性的比例;TPR(True Positive Rate) 真阳率: TPR = TP/(TP+FN),所有。样本中,预测为阳的比例。(灵敏度+特异度-1)进行评价得到的最优。
2023-03-02 11:11:52
1981
原创 【bioinfo】酶切法片段化建库相比超声打断建库引入softclip使用FADE软件识别/去除
文献提供的酶切产生的错误识别和去除软件。linux版FADE软件下载、使用
2023-01-06 20:26:14
1158
原创 【linux】在linux中投递、查看、修改和删除任务
在投递、查看、修改和删除任务时一般常用的操作。比如test1.sh比如test2.py。常用任务管理命令 nohup qsub top ps kill qdel
2022-12-28 19:27:05
10160
原创 【R】R包MethylCal安装问题解决 Rtools is required to build R packages
Rstudio R包MethylCal安装问题解决 Rtools is required to build R packages
2022-12-01 17:04:12
2019
原创 【math】利用Cardano方法对一元三次方程求解及python实现
python 使用Cardano方法求解一元三次方程。多种求解方法,其中Cardano可以根据对应解写出方程的解。可以使用python包,但是发现一个问题,需要详细看下包中bug如何解决?
2022-11-24 12:13:12
1618
原创 【math】Hiden Markov Model 隐马尔可夫模型了解
Hiden Markov Model 隐马尔可夫模型了解。forward algorithm, backward algorithm Viterbi algorithm, Baum–Welch algorithm
2022-11-15 19:19:16
745
原创 【linux】awk常用处理文件命令示例-替换/格式化/条件选择/求和/正则/子字符串
awk常用处理文件命令示例,字符替换、格式化输出、根据条件选择输出、列求和、正则匹配、子字符串、外部变量、文件转置、列分割
2022-11-15 10:45:05
7301
原创 【bioinfo】根据sam文件中的MD标签判断reads比对情况
MD标签是值:比对上的相对位置信息和错误信息。根据MD标签判断read的比对情况。
2022-10-20 15:28:34
736
原创 【python】两个bed文件取交集
这里写的python脚本纯属造轮子,而且运行速度很慢,还需要改进。分别是:bed交集,bed1独有的位点,bed2独有的位点。执行后,outdir目录下有3个文件。
2022-10-19 09:18:10
1345
2
原创 【bioinfo】hisat2/bowtie2比对结果summary文件解读
hisat2/bowtie2比对后,比对结果基本信息统计的summary文件解读。
2022-10-17 15:11:38
2159
原创 【bioinfo】fasta/fastq/sam格式互相转化
使用awk转化:fq2fa:awk '{if((NR+3)%4==0)printf ">"$1;if((NR+2)%4==0)print "\n"$1}' ${fq} > ${fa}samtools fastqsamtools fastq -n ${sam} > ${fq}-n: 输出不标记"/1"或 “/2”, Read1、Read2的标记
2022-10-14 14:42:57
8031
原创 【linux】bashrc配置文件里的source路径有问题解决
这个可能就涉及这个source原理了,由于不清楚,登录后source的配置信息和bashrc中的配置信息的先后关系,多次source指定的文件都没有作用(这样的处理跟直接source可能是一样的)。开始试各种命令,看那个能用。值得注意的是,笔者是路径不能访问的问题,直接编辑都不能用。如果只是vi不能用,可以 试试cat,grep,sed之类的命令,如果可用,先grep出要修改内容,确认修改的行,使用。不过,userA是可访问共用的一些路径,有助于后面的测试(userA是特殊场景下使用的用户,不能随便用)。
2022-10-09 18:55:12
3820
原创 【python】使用pandas dataframe.plot直接画箱图
dataframe.plot 修改参数设置 对特定图,有特定的模块与对应的参数,比如箱图参数y轴设置(x轴同理)
2022-09-09 11:34:56
5812
原创 【git】git常用操作--克隆/提交/合并/撤回/修改分支名/同步多个远程库
git常用命令。默认克隆的master分支,如果克隆一个非master分支,加上。将暂存区内容添加到本地仓库中。
2022-08-11 10:08:26
2603
原创 【python】使用pysam读取sam/vcf/fasta文件时的常用属性
判定该记录序列信息是read1或read2,是否是反向比对?判定该记录序列信息是否未比对上?配对序列是否反向比对?配对序列是否未比对上?读取sam文件时,熟悉一些常用的属性。如何将读取的信息转换成字符?............
2022-08-04 18:41:51
8937
3
原创 【bioinfo】sam文件可选区域字段(Optional Feild)含义
SAM文件可选字段说明上面两个链接是关于sam文件格式的官方说明文档,第一个包含所有字段,但对可选字段的说明比较简略,第二个是对可选字段的详细说明。这里根据官方文档,说明一下可选字段的具体含义。下面是sam文件的示例,其中第12列及以之后(红色框)就是可选字段:可选字段说明可选字段的构成格式: TAG:TYPE:VALUE,例如,上面sam文件示例,可选............
2022-08-04 17:05:54
1356
1
原创 【python】将多个tsv文件合并到excel表中
将某个目录下多个特定文本文件,合并到excel表中。并要求将文件名作为sheet名,每个sheet中第一行第一个单元格填写对应文件的所在路径,单元格格式使用Times New Roman。
2022-07-17 20:15:00
1121
原创 【bioinfo】samtools stats 输出结果解读
参考:samtools stats# sam or bam input$ samtools stat test.sam > test_sam_stat.txt
2022-07-15 19:00:00
5531
1
空空如也
PyCharm 提示"Simplify chained comparison"原因是?
2021-07-30
TA创建的收藏夹 TA关注的收藏夹
TA关注的人