【Hadoop】学习前提


  前言


      Hadoop是一个由Apache基金会所开发的分布式系统基础架构。它大数据分布式计算的典型代表。本博客参考了大量博客后总结出来的,如有不正,请多指教。


      Hadoop这个名词还是在实习的时候听同事讲,本身对大数据三个字比较敏感,所以空闲下来后对hadoop做了些了解,总结一下,多是些概念性的文本总结,仅说说自己的学后感。


      什么是大数据?大数据泛指由互联网产生的有意义且乱七八糟的数据,以TB为单位,它大致分为两种类型,一种是结构型的数据,即有主键或健值关系的数据。另一种是非结构型数据,数据之间无明显的关系。这类数据有几个特别让公司头疼的问题,一是如何存储,二是如何处理分析,三是如何在有效的时间内完成这些工作。是的,hadoop就可以解决这个问题。hadoop的分布式文件存储系统(HDFS)可以解决文件存储问题,mapreduce提供分析运算能力。这两者结合就可以很好的解决这三个问题。

(关于数据库的发展分别经历了sql、nosql和newsql,分别代表的关系型数据库、非关系型数据库和关系+半结构数据,大数据多属于第三种,所以它的存储和查询比较复杂。)


      从一张图中看一下hadoop的子项目架构图(网上找的)。之前经常听师父或一些人说到的如Hive, Pig, HBase, Sqoop, Mahout, Zookeeper等等,很是羡慕,普及一下。


 



 

      Common

      一组分布式文件系统和通用I/O的组件与接口(序列化、Java RPC和持久化数据结构)。

 

      Avro

      一种支持高效、跨语言的RPC以及永久存储数据的序列化系统。

 

      MapReduce

      分布式数据处理模型和执行环境,运行于大型商用机集群。

 

      HDFS

      分布式文件系统,运行于大型商用机集群。

 

     Pig

     一种数据流语言和运行环境,用以检索非常大的数据集。Pig运行在MapReduce和HDFS的集群上。    

                  

     Hive

     一个分布式、按列存储的数据仓库。Hive管理HDFS中存储的数据,并提供基于SQL的查询语言(由运行时引擎翻译成MapReduce作业)用以查询数据。

 

      HBase

     一个分布式、按列存储数据库。HBase使用HDFS作为底层存储,同时支持MapReduce的批量式计算和点查询(随机读取)。

 

      ZooKeeper

      一个分布式、可用性高的协调服务。ZooKeeper提供分布式锁之类的基本服务用于构建分布式应用。

 

      Sqoop

      在数据库和HDFS之间高效传输数据的工具。

 

 

  对比


       关于分布式计算系统如今流行的有新的“SSH”,分别是spark、storm和 Hadoop。

       Hadoop常用于离线的复杂的大数据处理,Spark常用于离线的快速的大数据处理,而Storm常用于在线的实时的大数据处理。


      Hadoop和spark、storm的对比:


      Spark:它在Hadoop的基础上进行了一些架构上的改良。Spark与Hadoop最大的不同点在于,Hadoop使用硬盘来存储数据,而Spark使用内存来存储数据,因此Spark可以提供超过Hadoop100倍的运算速度。但是,由于内存断电后会丢失数据,Spark不能用于处理需要长期保存的数据。


      Storm:它在Hadoop的基础上提供了实时运算的特性,可以实时的处理大数据流。不同于Hadoop和Spark,Storm不进行数据的收集和存储工作,它直接通过网络实时的接受数据并且实时的处理数据,然后直接通过网络实时的传回结果。


      有一点需要说一下,hadoop不是实时运算的。它是在每天晚上分批处理数据。举个例子,我们日常浏览淘宝或买东西,网络上都回去弹出一些商品推荐,这些商品推荐的内容就是从你之前的浏览浏览和购买记录中计算出来的,如果你细心的话会发现,这些推荐的商品都是你昨天之前看过的,你今天看过的商品是没有类似的推荐的。这就是使用的hadoop批处理分时计算。而那些你即时搜索即时推荐的就属于storm实时运算。

 

   总结


      对大数据的学习是第一步,之后肯定还有机会接触实践。虽然现在有了些例如阿里云上的云计算集群服务出售,无论价格还是性能都比价靠谱,而且是一键式部署,但是我们自己还是要去学习它的原理和实践,为之后的学习工作做好基础。不管现在技术怎么变,大多是在hadoop的基础上升级的,而且hadoop如今技术体系成熟稳定,还是很有市场的。

 

 

 

内容概要:本文详细介绍了扫描单分子定位显微镜(scanSMLM)技术及其在三维超分辨体积成像中的应用。scanSMLM通过电调透镜(ETL)实现快速轴向扫描,结合4f检测系统将不同焦平面的荧光信号聚焦到固定成像面,从而实现快速、大视场的三维超分辨成像。文章不仅涵盖了系统硬件的设计与实现,还提供了详细的软件代码实现,包括ETL控制、3D样本模拟、体积扫描、单分子定位、3D重建和分子聚类分析等功能。此外,文章还比较了循环扫描与常规扫描模式,展示了前者在光漂白效应上的优势,并通过荧光珠校准、肌动蛋白丝、线粒体网络和流感A病毒血凝素(HA)蛋白聚类的三维成像实验,验证了系统的性能和应用潜力。最后,文章深入探讨了HA蛋白聚类与病毒感染的关系,模拟了24小时内HA聚类的动态变化,提供了从分子到细胞尺度的多尺度分析能力。 适合人群:具备生物学、物理学或工程学背景,对超分辨显微成像技术感兴趣的科研人员,尤其是从事细胞生物学、病毒学或光学成像研究的科学家和技术人员。 使用场景及目标:①理解和掌握scanSMLM技术的工作原理及其在三维超分辨成像中的应用;②学习如何通过Python代码实现完整的scanSMLM系统,包括硬件控制、图像采集、3D重建和数据分析;③应用于单分子水平研究细胞内结构和动态过程,如病毒入侵机制、蛋白质聚类等。 其他说明:本文提供的代码不仅实现了scanSMLM系统的完整工作流程,还涵盖了多种超分辨成像技术的模拟和比较,如STED、GSDIM等。此外,文章还强调了系统在硬件改动小、成像速度快等方面的优势,为研究人员提供了从理论到实践的全面指导。
评论 24
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值