安装生信分析软件之BreakID

在CentOS7.5上安装BreakID基因组断点预测工具
本文档详细记录了在CentOS7.5系统上安装BreakID的过程,包括从下载源代码到解决安装过程中遇到的gcc路径问题和CigarRoller.cc文件的头文件缺失问题。安装完成后,成功运行BreakID的验证命令,展示了其用法。
一、BreakID 是什么?

BreakID是一种基因组断点预测方法,可以在短时间读取的大规模并行测序数据中以单核苷酸分辨率发现和基因型易位,串联重复,倒位和易位。它使用不一致的读对和拆分读来敏感而准确地描绘基因组重排。
GITHUB链接:BreakID

二、安装
本次安装是在centos7.5上安装BreakID,在安装的过程中有一些小的问题作者没有在README中写出来,导致自己捣鼓了好长一段时间,记录下来,让有需要的人能少走点弯路。也记录下步骤留以后备用。
先按照README.MD中下载所需要的的文件到本地
mkdir nib_files

cd nib_files

rsync -avzP rsync://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/ .

gunzip *.gz

wget https://users.soe.ucsc.edu/~kent/src/blatSrc35.zip

unzip blatSrc35.zip

下载BreakID

git clone https://github.com/SinOncology/BreakID.git

cd BreakID/

sh install.sh
注意 要修改以下文件内容:
1.CmakeLists.txt 中的gcc path

注意15行以下内容,17-19是我注释掉的,根据本地的gcc 填入path,如果不改路径,编译时会找不到gcc
我是直接将作者的gcc path给注释掉了,打开21-23行,也是我本地的gcc 的path

[root@localhost BreakID]# vim CMakeLists.txt 
	
 13 if (APPLE)
 14     # For Macs, override the paths here
 15 else ()
 16     # to compile in aliyun VM using g++-6.3.0
 17    # include_directories(/mnt/sata3_storage/pipe_app/gcc-6.5.0/bin/include)
 18    # set(CMAKE_CXX_COMPILER "/mnt/sata3_storage/pipe_app/gcc-6.5.0/bin/g++")
 19    # set(CMAKE_C_COMPILER "/mnt/sata3_storage/pipe_app/gcc-6.5.0/bin/gcc")
 20 
 21         include_directories(/usr/include/c++/4.8.5)
 22         set(CMAKE_CXX_COMPILER "/usr/bin/g++")
 23         set(CMAKE_C_COMPILER "/usr/bin/gcc")
 24 

如果修改完了上面的内容,然后使用sh install.sh进行安装还会报出西面的错误

[ 11%] Building CXX object src/CMakeFiles/BreakID.dir/CigarRoller.cc.o
/root/nib_files/BreakID/src/CigarRoller.cc: In member function ‘const char* CigarRoller::getString()’:
/root/nib_files/BreakID/src/CigarRoller.cc:298:20: error: ‘strcat’ was not declared in this scope
2.编辑头文件

上面的错误我是在网上搜到的解决办法,毕竟我不懂C
解决方法:解决头文件的错误

根据上面的报错,找到CigarRoller.cc.o 这个文件,在我这里,这个文件的路径/root/nib_files/BreakID/src

  6 #include <stdio.h>
  7 #include <stdlib.h>
  8 #include <string.h>    # 添加这一行
  9 #include <ctype.h>
 10 #include "CigarRoller.h"
 11 

保存退出之后再次进行sh install.sh进行安装,很快就能安装好了

/root/nib_files/BreakID/src/BreakID.cc:187:23: warning: ‘cluster_start’ may be used uninitialized in this function [-Wmaybe-uninitialized]
Linking CXX executable BreakID
[100%] Built target BreakID
[100%] Built target BreakID
Install the project...
-- Install configuration: ""
-- Installing: /root/nib_files/BreakID/bin/BreakID

[root@localhost bin]# cd /root/nib_files/BreakID/bin
[root@localhost bin]# ls
BreakID
[root@localhost bin]# ./BreakID  -h
 Usage: 
 	 BreakID -i input.bam -o prefix -n nib_folder <options> 

      DESCRIPTION
      	 -h -? -help 	 help
      	 -i*        	 input bam-file
      	 -o*        	 output file (prefix only)
      	 -n*        	 folder name to nib files
      	 -q         	 encompassing reads quality thresholds  [20]
     	 -t         	 distance relative to (sqrt(2)*(insert size mean +3* insert size sd))  [2]
      	 -fast      	 use the fast cluster strategy [default no] 
      	 -all       	 no filter enspan out [default is filter]  

在github上下载一些软件时,要注意作者使用的环境与我们本地的环境是否一致,否则就会很悲剧,浪费了很多的时间~~~
生物信息学分析中,R语言是常用的工具之一,其强大的统计分析和数据可视化能力为研究提供了便利。以下是关于R语言及其在生物信息学中应用的下载与安装步骤。 ### R语言的下载与安装 1. **R语言基础环境的下载** R语言的基础环境可以从其官方网站 [https://cran.r-project.org](https://cran.r-project.org) 下载。根据操作系统(Windows、macOS 或 Linux)选择对应的版本进行安装。 2. **RStudio 的安装(可选)** RStudio 是一个流行的 R 语言集成开发环境(IDE),提供更友好的用户界面和增强的代码编辑功能。可以从 [https://posit.co/download/rstudio-desktop](https://posit.co/download/rstudio-desktop) 下载并安装 RStudio。 ### 生物信息学相关R包的安装生物信息学分析中,常用的 R 包主要来源于 CRAN 和 Bioconductor。以下是安装这些包的步骤: 1. **安装 CRAN 上的常用包** CRAN 上有许多用于数据处理和可视化的包,例如 `ggplot2`、`dplyr` 等。可以通过以下命令安装: ```r install.packages("ggplot2") install.packages("dplyr") ``` 2. **安装 Bioconductor 上的生物信息学专用包** Bioconductor 是专门为生物信息学开发的 R 包资源库,其中包含如 `GEOquery`、`limma`、`DESeq2` 等常用包。安装 Bioconductor 包的方法如下: ```r if (!require("BiocManager", quietly = TRUE)) install.packages("BiocManager") BiocManager::install("GEOquery") BiocManager::install("limma") BiocManager::install("DESeq2") ``` 3. **加载已安装的包** 安装完成后,可以使用 `library()` 或 `require()` 函数加载所需的包: ```r library(GEOquery) library(limma) ``` ### 获取数据并进行分析安装完必要的工具后,可以使用 R 语言从公共数据库(如 GEO)下载生物信息学数据并进行分析。例如,使用 `GEOquery` 包下载和处理 GEO 数据集: ```r library(GEOquery) gse <- getGEO("GSE12345", destdir = ".") expr_data <- exprs(gse) ``` ### 总结 通过上述步骤,可以完成 R 语言基础环境的安装、常用 R 包的安装以及开始进行生物信息学数据分析。对于初学者和研究人员,R 语言提供了丰富的工具和资源来支持研究工作。
评论 2
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值