3、Hadoop与Hive安装及使用指南

Hadoop与Hive安装及使用指南

1. 数据分词与工具选择

在处理文件时,可采用最简单的方法将文件分词,即按空白边界进行分割。不过,这种方法存在不足,它无法妥善处理标点符号,也不能识别单词的单复数形式。但在当前场景下,这种方法已足够。

Java API的优点在于能够定制和微调算法实现的每一个细节。然而,大多数时候,我们并不需要如此高的控制级别,管理这些细节反而会显著降低效率。

对于非程序员而言,编写Java MapReduce代码具有一定难度。但如果你熟悉SQL,学习Hive相对容易,许多应用也能快速实现。

2. 安装途径
2.1 安装预配置虚拟机

安装Hadoop和Hive有多种方式,其中一种简便的方法是下载预配置的虚拟机(VM),可在VMWare或VirtualBox中运行。VMWare方面,Windows和Linux系统可使用免费的VMWare Player,Mac OS X系统可使用价格实惠的VMWare Fusion;VirtualBox在Windows、Linux、Mac OS X和Solaris系统上均免费。

虚拟机采用Linux作为操作系统,目前这是生产环境中运行Hadoop的唯一推荐操作系统。在Windows系统上,即使安装了Cygwin或类似的类Unix软件,使用虚拟机也是运行Hadoop的唯一方式。

大多数预配置的虚拟机是为VMWare设计的,但如果你更喜欢VirtualBox,可以在网上查找将特定VM导入VirtualBox的说明。你可以从以下网站下载预配置的虚拟机:
| 提供商 | URL | 说明 |
| — | — |

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值