大数据技术学习要点

大数据技术学习要点

学习大数据技术的开始要学会搭建linux系统,安装jdk、hadoop等,然后要学会大数据的文件处理系统。hadoop的基础组件,要先学会搭建,然后才能在此基础上进一步地应用和开发,比如分布式文件处理中MapReduce的核心思想等。

具体可按照以下顺序进行:

第一阶段,以离线操作应用为主。

  • 创建虚拟机,并安装linux操作系统,或者安装独立的linux操作系统,也可以购买云计算服务器进行搭建学习;

  • 熟悉linux常用命令,包括文件编辑类、文件目录类和用户管理类等命令;

  • 安装jdk和Hadoop。Hadoop是一个由Apache基金会所开发的分布式系统基础架构;

  • 熟悉Hadoop文件系统常用操作命令;

  • 熟悉MapReduce核心思想(用于大规模数据集的并行运算);

  • 安装zookeeper(Hadoop和Hbase的重要组件,为分布式应用提供一致性服务),了解其工作原理;

  • 了解hive(基于Hadoop数据仓库工具,用于数据提取、转化、加载)的架构及安装;

  • HBASE(高可靠性、高性能、面向列、可伸缩的分布式存储系统)的安装和部署。

第二阶段,以实时开发为主。

  • scala的安装和基础语法的熟悉。scala是一种类似java的编程语言,可以与java.NET互操作;可以从Scala中调用所有的Java类库,也可以从Java应用程序中调用Scala的代码。
  • Spark集群安装和应用。Spark 是为大规模数据处理而设计的快速通用计算引擎。Spark具有Hadoop MapReduce的优点;但Job中间输出结果可以保存在内存中,从而不再需要读写HDFSSpark能更好地适用于数据挖掘与机器学习等。
  • Elasticsearch的安装和学习。Elasticsearch是一个实时分布式搜索和分析引擎。它用于全文搜索、结构化搜索、分析。
  • KafkaKafka是一个分布式消息队列。
  • 内存数据库。包括MemCached缓存技术、Redis高性能内存数据库等。
  • FlinkStormApache Flink Apache Storm 是当前业界广泛使用的两个分布式实时计算框架。FlumeFlume提供一个分布式的,可靠的,对大数据量的日志进行高效收集、聚集、移动的服务。

相关内容请关注百度app和公众号免费学习:

                                                      

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

njzhuming

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值