
【我的项目】➣ [4] Hadoop基因测序
gamedev˚
很多东西不是你觉得有用才去学,而是学了才知道它有用。
展开
-
基于Hadoop的基因组测序大数据分析平台研究
首先要声明的是,基于Hadoop的基因组测序大数据分析平台研究是本人2018年的毕业设计课题,根据网络资源和自己的专业知识,独立完成整个流程设计、平台搭建和单元测试等工作。本系列文章是对该项目的一个整理总结和分享记录。开发环境介绍:通过本人的2014年款ThinkPad开发,内存是8GB。操作系统:Ubuntu16开发平台:IDEA开发时间:2018年2月~5月【目...原创 2018-07-01 19:24:26 · 4803 阅读 · 0 评论 -
参 考 文 献
[1] Sanger, F. & Nicklen, S. DNA sequencing with chain-terminating[P]. 74, 5463–5467 (1977). [2] Struster SC.Next-generation sequencing transform today’s biology[J].Nat Methods.5(1):16-18 (2008)....原创 2018-07-28 11:52:47 · 10956 阅读 · 0 评论 -
致 谢
从论文的选题、资料收集再到撰写的整个过程,在碰到基因测序的疑难问题时,得到了许多老师和同学的热情帮助。首先,我要感谢的是我的导师邝祝芳老师,当他得知我的毕设课题需要大数据平台与基因测序结合,询问我是否需要高性能计算的服务器,并随后立马帮我申请了湖南大学的天河一号超级计算机的使用账号。在我毕业设计的基因样本数据的准备过程,和基于Hadoop大数据平台的搭建过程中,他对我的研究提出了很多宝贵的意见...原创 2018-07-28 11:51:24 · 1866 阅读 · 0 评论 -
结 论
在本次的论文中,主要对Hadoop大数据框架做了深入了解,并对生物信息学中基因测序领域有了一个全新的认识。在这次基于Hadoop的基因组测序大数据分析平台研究的课题中,构建了针对生物全基因组的测序流程,并将自己所学的大数据领域的知识与全基因组测序流程相结合,利用Hadoop特有的HDFS分布式存储系统的特性,来容错的存储样本数据,并通过MapReduce计算框架将原本串行分析的WGS流程构建成不同...原创 2018-07-28 11:49:42 · 533 阅读 · 0 评论 -
5 系统的测试与扩展
[返回主目录]5 系统的测试与扩展5.1 MRUnit测试类编写5.1.1 Map任务的测试类编写与调度5.1.2 Reduce任务的测试类编写与调度5.2 Hadoop测序平台的测试5.2.1 测试环境与测试数据准备5.2.2 系统平台的测试5.3 测序平台的分析与优化5.3.1 测序平台与传统测序流程的比较5.3.2 增加测序流程处理的时间戳标记5.3.3 ...原创 2018-07-28 11:46:12 · 1306 阅读 · 0 评论 -
4 基于Hadoop的平台搭建与MapReduce作业设计
[返回主目录]4 基于Hadoop的平台搭建与MapReduce作业设计4.1 基于Hadoop的伪分布式平台搭建4.1.1 搭建Hadoop伪分布式平台4.1.2 启动和停止Hadoop集群4.2 伪分布式环境的MapReduce作业构建4.2.1 Mapper流程构造4.2.2 Reducer流程构造4.3.3 启动和停止Hadoop集群4.4 分布式环境下Ma...原创 2018-07-28 11:17:57 · 2605 阅读 · 0 评论 -
3 基于Hadoop基因测序数据处理关键技术的研究
[返回主目录]3 基于Hadoop基因测序数据处理关键技术的研究3.1 测序处理流程与MapReduce结合3.1.1 测序流程与MapReduce结合的可行性分析3.1.2 测序流程与MapReduce框架的结合3.2 不同格式数据的访问与存储3.2.1 数据访问于存储面临的问题3.2.2 数据的存储与访问分析3.3 分析流程的完整性3.3.1 分析流程面临的问题...原创 2018-07-28 10:50:48 · 2267 阅读 · 2 评论 -
2 相关技术及原理
2 相关技术及原理2.1 Hadoop相关技术和原理本节主要对基于Hadoop平台的相关技术,如:HDFS、YARN和MapReduce三大模块进行原理介绍 ,为后续基因测序在Hadoop平台上的搭建作相应的准备。2.1.1 HDFS分布式存储系统Hadoop分布式存储系统,即Hadoop Dirstributed FileSystem,简称HDFS1。由于Hadoo...原创 2018-07-28 00:52:27 · 3043 阅读 · 0 评论 -
绪论
1 绪论1.1 论文的研究背景及意义全基因组测序的英文是 Whole Genome Sequencing,简称WGS。它是将物种细胞里从第一个DNA开始一直到最后一个DNA的完整基因组序列,通过相关仪器和技术手段检测出来并排序好得到一种文本格式的文件,最后再将其和参考基因组做比对,鉴定出基因组上任何类型的突变。对于人类来说,全基因组测序能帮助我们更好的了解我们自身的基因位点信息,检测变...原创 2018-07-01 20:10:01 · 6708 阅读 · 0 评论 -
摘要
本论文主要研究内容是将传统的全基因组测序与Hadoop框架结合的大数据测序平台研发,通过Hadoop中的HDFS分布式存储系统来提供高可靠的存储服务,结合基因测序的一系列软件工具(如:BWA、Samtools、Picard和GATK等)来进行测序流程设计,并引入第三方FreeMarker模板引擎来制定模板脚本,针对不同的样本数据生成定制化的脚本处理文件。将各个样本的处理脚本与Hadoop框架的Ma...原创 2018-07-28 11:56:00 · 705 阅读 · 0 评论