Hadoop与Hive安装及使用指南
1. 简单词法分析与工具选择
在某些示例中,采用了简单的方法将文件分词,即按空白边界分割。这种方法虽不能很好处理标点符号,也无法识别单复数形式的单词为同一词,但基本能满足需求。
Java API的优点是可定制和微调算法实现的每个细节,但多数时候,并不需要如此精细的控制,管理这些细节反而会降低效率。若不是程序员,编写Java MapReduce代码有难度;但如果熟悉SQL,学习Hive相对容易,很多应用也能快速实现。
2. 安装准备
可以在个人工作站上安装Hadoop和Hive,这便于学习和实验。若已使用亚马逊网络服务(AWS),在亚马逊弹性MapReduce(EMR)上运行配置好Hive的作业流是学习Hive的快捷方式。若已有安装了Hive的Hadoop集群,可跳过部分内容,直接从 “Hive内部结构” 开始。
3. 安装预配置虚拟机
安装Hadoop和Hive有多种方式,下载可在VMWare或VirtualBox中运行的预配置虚拟机是一种简便方法。VMWare方面,Windows和Linux可用免费的VMWare Player,Mac OS X可用价格实惠的VMWare Fusion;VirtualBox在各平台(包括Solaris)均免费。
虚拟机使用Linux作为操作系统,目前这是生产环境中运行Hadoop的推荐系统。对于Windows系统,即使安装了Cygwin等类Unix软件,使用虚拟机也是运行Hadoop的唯一方式。
多数预配置虚拟机是为VMWare设计的,若偏好VirtualBox,可在网上查找将特定虚拟机导入Virtua
超级会员免费看
订阅专栏 解锁全文
2389

被折叠的 条评论
为什么被折叠?



