19、构建和管理 Azure HDInsight 集群

原创于 2025-10-13 09:31:18 发布 · 33 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#Azure HDInsight #MapReduce #Hive

PowerShell玩转Azure 专栏收录该内容

18 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

构建和管理 Azure HDInsight 集群

一、集群基本操作

在成功创建第一个 Azure HDInsight 集群后，我们可以使用 Get - AzureHDInsightCluster cmdlet 列出新集群的详细信息，使用 -Name 参数指定集群名称，示例代码如下：

Get - AzureHDInsightCluster -Name pshdclstr

若要销毁（删除）集群，可使用 Remove - AzureHDInsightCluster cmdlet，示例代码如下：

Remove - AzureHDInsightCluster -Name pshdclstr

二、使用 HDInsight 集群运行 MapReduce 作业

MapReduce 概念
MapReduce 分为两个操作：Map 作业和 Reduce 作业。Map 作业代码运行在数据节点上，对数据执行操作，如统计特定单词的出现次数或计算所有数字的平均值；Reduce 作业代码运行在主节点上，收集所有节点的结果并最终呈现结果。MapReduce 是 Hadoop 生态系统中许多其他应用程序用于执行功能的框架，借助 YARN 框架，多个 MapReduce 作业可以同时运行。Hadoop MapReduce 作业代码通常用 Java 编写，使用 HDInsight 时也可以用 C# 编写。
提交 MapReduce 作业步骤
- 定义 MapReduce 作业 ：使用 New - AzureHDInsightMapReduceJobDefinition cmdlet 定义作业，需要使用 -JarFile 参数指定包含代码的 jar 文件， -ClassName 参数定义 jar 文件中作业类的名称， -Arguments 参数选择要统计单词数量的文件和存储输出文件的位置。示例代码如下：

# 指定 Jar 文件位置
$JarFilePath = "/example/jars/hadoop - mapreduce - examples.jar"
# 定义 JarFile 中的作业类名
$ClassName = "wordcount"
# 定义 MapReduce 作业
$wordCountJob = New - AzureHDInsightMapReduceJobDefinition -JarFile $JarFilePath -ClassName $ClassName -Arguments "/example/data/gutenberg/ulysses.txt", "/example/data/WordCountOutput2"

- **执行作业**：使用 `Start - AzureHDInsightJob` cmdlet 执行作业，不要忘记使用 `-Cluster` 参数选择要执行作业的 HDInsight 集群。然后使用 `Wait - AzureHDInsightJob` cmdlet 等待作业完成或失败。最后使用 `Get - AzureHDInsightJobOutPut` cmdlet 检索作业的日志输出。示例代码如下：

$wordCountJob | Start - AzureHDInsightJob -Cluster pshdclstr | Wait - AzureHDInsightJob -WaitTimeoutInSeconds 3600 | %{Get - AzureHDInsightJobOutput -Cluster pshdclstr -JobId $_.JobId -StandardError}

查看作业计数器信息
作业输出包含 49 个计数器，这些计数器提供了作业运行的完整诊断信息，有助于了解和优化作业执行过程中消耗的时间和读取的字节大小。例如文件系统计数器、作业计数器、Map - Reduce 框架计数器等。以下是部分计数器示例：
| 计数器类型 | 详细信息 |
| ---- | ---- |
| File System Counters | FILE: Number of bytes read = 364953
FILE: Number of bytes written = 929898
WASB: Number of bytes read = 1573207
WASB: Number of bytes written = 527522 |
| Job Counters | Launched map tasks = 1
Launched reduce tasks = 1
Total time spent by all maps in occupied slots (ms)= 8391 |
| Map - Reduce Framework | Map input records = 33055
Map output records = 267975
Reduce input groups = 50091 |
获取作业结果
使用以下代码生成输出文件的 URI 并读取结果，还可以搜索特定单词的出现次数：

Get - AzureStorageBlobContent -Container storageforcluster -Blob "example/data/WordCountOutput2/part - r - 00000" -Context $storageContext -Force
Get - Content "./example/data/WordCountOutput2/part - r - 00000" | findstr "book"

三、使用 Hive 进行数据查询

Hive 简介
Hive 是 Hadoop 上最有用的平台之一，它利用 MapReduce 框架向数据提交类似 SQL 的查询并返回结果，有人将其视为大数据的数据仓库。Hive 在 Hadoop 系统的数据文件或文件夹中创建表，在 HDInsight 中，表可以是 Azure 存储中的容器或 blob。对这些表的查询会被转换为在集群上执行的 MapReduce 作业，结果返回给用户。
使用 Hive 处理航空公司数据示例步骤
- 上传数据文件 ：使用 Set - AzureStorageBlobContent cmdlet 将文件上传到 Azure 存储的容器中，示例代码如下：

Set - AzureStorageBlobContent -File "c:\airlinesdata.csv" -Container "storageforcluster" -Blob "/example/data/airlinesdata.csv" -context $storageContext

- **连接到集群**：使用 `Use - AzureHDInsightCluster` cmdlet 连接到集群，示例代码如下：

Use - AzureHDInsightCluster -ClusterName pshdclstr

- **创建 Hive 表**：创建一个外部表 `airlines`，示例代码如下：

$q = "CREATE EXTERNAL TABLE airlines(QUARTER string,UNIQUE_CARRIER string,UNIQUE_CARRIER_NAME string,CARRIER_NAME string,ORIGIN_AIRPORT_ID int,ORIGIN string,ORIGIN_CITY_NAME string,SERVICE_CLASS string,REV_PAX_ENP_110 float) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE LOCATION 'wasb://data@pshdclstrstorage.blob.core.windows.net/storageforcluster/example/';"
Invoke - Hive -Query $q

- **查看 Hive 元存储中的表**：使用以下命令列出 Hive 元存储中的所有表：

Invoke - Hive -Query "show tables;"

- **执行查询**：查询 2014 年飞行的航班总数，示例代码如下：

$q2 = "select count(1) from airlines"
Invoke - Hive -Query $q2

- **获取作业执行信息**：使用 `Get - AzureHDInsightJob` cmdlet 获取作业执行的详细信息，示例代码如下：

Get - AzureHDInsightJob -Cluster pshdclstr -JobId "job_1421053567758_0019"

Hive 操作限制
当前版本的 Hive 不允许插入、更新和删除操作，因为 Hive 主要用于数据仓库，不是事务性数据存储，适用于以大量扫描为中心的查询。
另一种提交 Hive 查询的方法
使用 PowerShell 库中的 Hive 作业定义提交查询，步骤如下：
- 定义 Hive 作业 ：使用 New - AzureHDInsightHiveJobDefinition cmdlet 定义作业，示例代码如下：

$hiveJobDef = New - AzureHDInsightHiveJobDefinition -Query "select count(1) from airlines;"

- **启动 Hive 作业**：使用 `Start - AzureHDInsightJob` cmdlet 启动作业，示例代码如下：

$hiveJob = Start - AzureHDInsightJob -Cluster pshdclstr -JobDefinition $hiveJobDef

- **等待作业完成并查看进度**：使用 `Wait - AzureHDInsightJob` cmdlet 等待作业完成并查看进度，示例代码如下：

Wait - AzureHDInsightJob -Job $hiveJob -WaitTimeoutInSeconds 3600

- **获取作业结果**：使用 `Get - AzureHDInsightJobOutput` cmdlet 获取作业结果，示例代码如下：

Get - AzureHDInsightJobOutput -Cluster pshdclstr -JobId $hiveJob.JobId

通过 HDInsight 网页界面提交 Hive 查询
登录集群页面，在 Azure 管理门户中点击集群，在仪表板屏幕上获取 URL。弹出窗口要求输入用户名和密码进行身份验证，点击 Hive 编辑器选项卡，可查看所有提交的查询、执行新查询并获取结果。

四、访问 HDInsight 节点

远程访问头节点配置
在 Azure 管理门户的集群配置选项卡中，点击“Enable remote”图标，在弹出窗口中输入新的用户名、密码和过期日期（过期日期应在创建日期后的七天内）。配置完成后，点击新出现的“connect”图标，打开远程桌面配置文件，输入正确的用户名和密码即可访问头节点。
头节点桌面快捷方式及操作
在头节点的桌面上有四个快捷方式：
- Hadoop Command Line ：可使用 Hadoop 外壳、Hive 外壳或 Grunt 外壳（Pig），用于将文件放入内部 HDFs 并进行操作。例如，使用以下命令列出 Hadoop 系统文件：

C:\apps\dist\hadoop - 2.4.0.2.1.9.0 - 2196> hadoop fs -ls /

还可以使用 hadoop fs -put 命令上传文件，示例代码如下：

C:\apps\dist\hadoop - 2.4.0.2.1.9.0 - 2196> hadoop fs -put c:\data\airlinedata.csv /airlinedata.csv

使用 hadoop fs -tail 命令读取文件，示例代码如下：

C:\apps\dist\hadoop - 2.4.0.2.1.9.0 - 2196> hadoop fs -tail /airlinedata.csv

Hadoop Name Node Status ：显示节点存储和连接的当前状态的网页。
Hadoop Service Availability ：显示所有可用服务状态的网页。
Hadoop YARN Status ：显示当前正在运行的 MapReduce 作业和 YARN 平台上作业的日志。

构建和管理 Azure HDInsight 集群

五、操作流程总结与对比

为了让大家更清晰地了解上述操作，下面通过流程图和表格对关键操作流程进行总结和对比。

1. MapReduce 作业提交流程

graph LR
    A[定义作业] --> B[执行作业]
    B --> C[等待作业完成]
    C --> D[获取日志输出]
    A --> |指定参数| A1[Jar 文件位置]
    A --> |指定参数| A2[作业类名]
    A --> |指定参数| A3[输入输出文件路径]
    B --> |选择集群| B1[指定集群名称]
    D --> |获取结果| E[生成输出文件 URI]
    E --> F[搜索特定单词]

2. Hive 操作流程

graph LR
    A[上传数据文件] --> B[连接到集群]
    B --> C[创建 Hive 表]
    C --> D[查看元存储表]
    D --> E[执行查询]
    E --> F[获取作业信息]
    E --> |另一种方式| G[定义 Hive 作业]
    G --> H[启动 Hive 作业]
    H --> I[等待作业完成]
    I --> J[获取作业结果]
    A --> |使用 cmdlet| A1[Set - AzureStorageBlobContent]
    B --> |使用 cmdlet| B1[Use - AzureHDInsightCluster]
    C --> |使用 cmdlet| C1[Invoke - Hive]
    D --> |使用 cmdlet| D1[Invoke - Hive]
    E --> |使用 cmdlet| E1[Invoke - Hive]
    F --> |使用 cmdlet| F1[Get - AzureHDInsightJob]
    G --> |使用 cmdlet| G1[New - AzureHDInsightHiveJobDefinition]
    H --> |使用 cmdlet| H1[Start - AzureHDInsightJob]
    I --> |使用 cmdlet| I1[Wait - AzureHDInsightJob]
    J --> |使用 cmdlet| J1[Get - AzureHDInsightJobOutput]

3. 操作对比表格

操作类型	主要 cmdlet	关键参数	适用场景
集群管理	Get - AzureHDInsightCluster Remove - AzureHDInsightCluster	-Name	创建、查看和删除集群
MapReduce 作业	New - AzureHDInsightMapReduceJobDefinition Start - AzureHDInsightJob Wait - AzureHDInsightJob Get - AzureHDInsightJobOutPut	-JarFile -ClassName -Arguments -Cluster	提交和管理 MapReduce 作业
Hive 操作	Set - AzureStorageBlobContent Use - AzureHDInsightCluster Invoke - Hive New - AzureHDInsightHiveJobDefinition Start - AzureHDInsightJob Wait - AzureHDInsightJob Get - AzureHDInsightJobOutput	-File -Container -Blob -context -ClusterName -Query -JobDefinition	上传数据、创建表、执行查询和管理 Hive 作业
访问节点	远程桌面配置	用户名、密码、过期日期	远程访问头节点进行特殊配置

六、注意事项和最佳实践

数据存储 ：在使用 HDInsight 时，建议使用 Azure 存储来存储数据，因为集群释放后，内部虚拟机上的数据会丢失。例如，在 Hive 操作中，将数据文件上传到 Azure 存储的容器中，确保数据的持久性。
Hive 操作限制 ：当前版本的 Hive 不支持插入、更新和删除操作，因此在设计数据处理流程时，要明确 Hive 的适用场景，主要用于以大量扫描为中心的查询。
远程访问安全 ：在配置远程访问头节点时，要设置合理的过期日期，确保系统安全。过期日期应在创建日期后的七天内，避免长时间开放远程访问带来的安全风险。
作业监控 ：通过作业计数器和日志输出，及时了解作业的运行情况，进行性能优化。例如，根据计数器信息，分析作业执行过程中消耗的时间和读取的字节大小，找出可能的性能瓶颈。

七、总结

通过以上内容，我们详细介绍了 Azure HDInsight 集群的构建、管理以及相关操作。包括创建和删除集群、提交 MapReduce 作业、使用 Hive 进行数据查询以及访问 HDInsight 节点等操作。同时，通过流程图和表格对操作流程进行了总结和对比，方便大家理解和掌握。在实际应用中，要根据具体需求选择合适的操作方法，并遵循注意事项和最佳实践，以确保系统的高效运行和数据的安全可靠。希望这些内容对大家在使用 Azure HDInsight 时有所帮助。