Hadoop与Hive安装及使用指南
1. 数据分词与工具选择
在处理文件时,可采用最简单的方法将文件分词,即按空白边界进行分割。不过,这种方法存在不足,它无法妥善处理标点符号,也不能识别单词的单复数形式。但在当前场景下,这种方法已足够。
Java API的优点在于能够定制和微调算法实现的每一个细节。然而,大多数时候,我们并不需要如此高的控制级别,管理这些细节反而会显著降低效率。
对于非程序员而言,编写Java MapReduce代码具有一定难度。但如果你熟悉SQL,学习Hive相对容易,许多应用也能快速实现。
2. 安装途径
2.1 安装预配置虚拟机
安装Hadoop和Hive有多种方式,其中一种简便的方法是下载预配置的虚拟机(VM),可在VMWare或VirtualBox中运行。VMWare方面,Windows和Linux系统可使用免费的VMWare Player,Mac OS X系统可使用价格实惠的VMWare Fusion;VirtualBox在Windows、Linux、Mac OS X和Solaris系统上均免费。
虚拟机采用Linux作为操作系统,目前这是生产环境中运行Hadoop的唯一推荐操作系统。在Windows系统上,即使安装了Cygwin或类似的类Unix软件,使用虚拟机也是运行Hadoop的唯一方式。
大多数预配置的虚拟机是为VMWare设计的,但如果你更喜欢VirtualBox,可以在网上查找将特定VM导入VirtualBox的说明。你可以从以下网站下载预配置的虚拟机:
| 提供商 | URL | 说明 |
| — | — |
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



