19、构建和管理 Azure HDInsight 集群

构建和管理 Azure HDInsight 集群

一、集群基本操作

在成功创建第一个 Azure HDInsight 集群后,我们可以使用 Get - AzureHDInsightCluster cmdlet 列出新集群的详细信息,使用 -Name 参数指定集群名称,示例代码如下:

Get - AzureHDInsightCluster -Name pshdclstr

若要销毁(删除)集群,可使用 Remove - AzureHDInsightCluster cmdlet,示例代码如下:

Remove - AzureHDInsightCluster -Name pshdclstr
二、使用 HDInsight 集群运行 MapReduce 作业
  1. MapReduce 概念
    MapReduce 分为两个操作:Map 作业和 Reduce 作业。Map 作业代码运行在数据节点上,对数据执行操作,如统计特定单词的出现次数或计算所有数字的平均值;Reduce 作业代码运行在主节点上,收集所有节点的结果并最终呈现结果。MapReduce 是 Hadoop 生态系统中许多其他应用程序用于执行功能的框架,借助 YARN 框架,多个 MapReduce 作业可以同时运行。Hadoop MapReduce 作业代码通常用 Java 编写,使用 HDInsight 时也可以用 C# 编写。
  2. 提交 MapReduce 作业步骤
    • 定义 MapReduce 作业 :使用 New - AzureHDInsightMapReduceJobDefinition cmdlet 定义作业,需要使用 -JarFile 参数指定包含代码的 jar 文件, -ClassName 参数定义 jar 文件中作业类的名称, -Arguments 参数选择要统计单词数量的文件和存储输出文件的位置。示例代码如下:
# 指定 Jar 文件位置
$JarFilePath = "/example/jars/hadoop - mapreduce - examples.jar"
# 定义 JarFile 中的作业类名
$ClassName = "wordcount"
# 定义 MapReduce 作业
$wordCountJob = New - AzureHDInsightMapReduceJobDefinition -JarFile $JarFilePath -ClassName $ClassName -Arguments "/example/data/gutenberg/ulysses.txt", "/example/data/WordCountOutput2"
- **执行作业**:使用 `Start - AzureHDInsightJob` cmdlet 执行作业,不要忘记使用 `-Cluster` 参数选择要执行作业的 HDInsight 集群。然后使用 `Wait - AzureHDInsightJob` cmdlet 等待作业完成或失败。最后使用 `Get - AzureHDInsightJobOutPut` cmdlet 检索作业的日志输出。示例代码如下:
$wordCountJob | Start - AzureHDInsightJob -Cluster pshdclstr | Wait - AzureHDInsightJob -WaitTimeoutInSeconds 3600 | %{Get - AzureHDInsightJobOutput -Cluster pshdclstr -JobId $_.JobId -StandardError}
  1. 查看作业计数器信息
    作业输出包含 49 个计数器,这些计数器提供了作业运行的完整诊断信息,有助于了解和优化作业执行过程中消耗的时间和读取的字节大小。例如文件系统计数器、作业计数器、Map - Reduce 框架计数器等。以下是部分计数器示例:
    | 计数器类型 | 详细信息 |
    | ---- | ---- |
    | File System Counters | FILE: Number of bytes read = 364953
    FILE: Number of bytes written = 929898
    WASB: Number of bytes read = 1573207
    WASB: Number of bytes written = 527522 |
    | Job Counters | Launched map tasks = 1
    Launched reduce tasks = 1
    Total time spent by all maps in occupied slots (ms)= 8391 |
    | Map - Reduce Framework | Map input records = 33055
    Map output records = 267975
    Reduce input groups = 50091 |

  2. 获取作业结果
    使用以下代码生成输出文件的 URI 并读取结果,还可以搜索特定单词的出现次数:

Get - AzureStorageBlobContent -Container storageforcluster -Blob "example/data/WordCountOutput2/part - r - 00000" -Context $storageContext -Force
Get - Content "./example/data/WordCountOutput2/part - r - 00000" | findstr "book"
三、使用 Hive 进行数据查询
  1. Hive 简介
    Hive 是 Hadoop 上最有用的平台之一,它利用 MapReduce 框架向数据提交类似 SQL 的查询并返回结果,有人将其视为大数据的数据仓库。Hive 在 Hadoop 系统的数据文件或文件夹中创建表,在 HDInsight 中,表可以是 Azure 存储中的容器或 blob。对这些表的查询会被转换为在集群上执行的 MapReduce 作业,结果返回给用户。
  2. 使用 Hive 处理航空公司数据示例步骤
    • 上传数据文件 :使用 Set - AzureStorageBlobContent cmdlet 将文件上传到 Azure 存储的容器中,示例代码如下:
Set - AzureStorageBlobContent -File "c:\airlinesdata.csv" -Container "storageforcluster" -Blob "/example/data/airlinesdata.csv" -context $storageContext
- **连接到集群**:使用 `Use - AzureHDInsightCluster` cmdlet 连接到集群,示例代码如下:
Use - AzureHDInsightCluster -ClusterName pshdclstr
- **创建 Hive 表**:创建一个外部表 `airlines`,示例代码如下:
$q = "CREATE EXTERNAL TABLE airlines(QUARTER string,UNIQUE_CARRIER string,UNIQUE_CARRIER_NAME string,CARRIER_NAME string,ORIGIN_AIRPORT_ID int,ORIGIN string,ORIGIN_CITY_NAME string,SERVICE_CLASS string,REV_PAX_ENP_110 float) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE LOCATION 'wasb://data@pshdclstrstorage.blob.core.windows.net/storageforcluster/example/';"
Invoke - Hive -Query $q
- **查看 Hive 元存储中的表**:使用以下命令列出 Hive 元存储中的所有表:
Invoke - Hive -Query "show tables;"
- **执行查询**:查询 2014 年飞行的航班总数,示例代码如下:
$q2 = "select count(1) from airlines"
Invoke - Hive -Query $q2
- **获取作业执行信息**:使用 `Get - AzureHDInsightJob` cmdlet 获取作业执行的详细信息,示例代码如下:
Get - AzureHDInsightJob -Cluster pshdclstr -JobId "job_1421053567758_0019"
  1. Hive 操作限制
    当前版本的 Hive 不允许插入、更新和删除操作,因为 Hive 主要用于数据仓库,不是事务性数据存储,适用于以大量扫描为中心的查询。
  2. 另一种提交 Hive 查询的方法
    使用 PowerShell 库中的 Hive 作业定义提交查询,步骤如下:
    • 定义 Hive 作业 :使用 New - AzureHDInsightHiveJobDefinition cmdlet 定义作业,示例代码如下:
$hiveJobDef = New - AzureHDInsightHiveJobDefinition -Query "select count(1) from airlines;"
- **启动 Hive 作业**:使用 `Start - AzureHDInsightJob` cmdlet 启动作业,示例代码如下:
$hiveJob = Start - AzureHDInsightJob -Cluster pshdclstr -JobDefinition $hiveJobDef
- **等待作业完成并查看进度**:使用 `Wait - AzureHDInsightJob` cmdlet 等待作业完成并查看进度,示例代码如下:
Wait - AzureHDInsightJob -Job $hiveJob -WaitTimeoutInSeconds 3600
- **获取作业结果**:使用 `Get - AzureHDInsightJobOutput` cmdlet 获取作业结果,示例代码如下:
Get - AzureHDInsightJobOutput -Cluster pshdclstr -JobId $hiveJob.JobId
  1. 通过 HDInsight 网页界面提交 Hive 查询
    登录集群页面,在 Azure 管理门户中点击集群,在仪表板屏幕上获取 URL。弹出窗口要求输入用户名和密码进行身份验证,点击 Hive 编辑器选项卡,可查看所有提交的查询、执行新查询并获取结果。
四、访问 HDInsight 节点
  1. 远程访问头节点配置
    在 Azure 管理门户的集群配置选项卡中,点击“Enable remote”图标,在弹出窗口中输入新的用户名、密码和过期日期(过期日期应在创建日期后的七天内)。配置完成后,点击新出现的“connect”图标,打开远程桌面配置文件,输入正确的用户名和密码即可访问头节点。
  2. 头节点桌面快捷方式及操作
    在头节点的桌面上有四个快捷方式:
    - Hadoop Command Line :可使用 Hadoop 外壳、Hive 外壳或 Grunt 外壳(Pig),用于将文件放入内部 HDFs 并进行操作。例如,使用以下命令列出 Hadoop 系统文件:
C:\apps\dist\hadoop - 2.4.0.2.1.9.0 - 2196> hadoop fs -ls /

还可以使用 hadoop fs -put 命令上传文件,示例代码如下:

C:\apps\dist\hadoop - 2.4.0.2.1.9.0 - 2196> hadoop fs -put c:\data\airlinedata.csv /airlinedata.csv

使用 hadoop fs -tail 命令读取文件,示例代码如下:

C:\apps\dist\hadoop - 2.4.0.2.1.9.0 - 2196> hadoop fs -tail /airlinedata.csv
  • Hadoop Name Node Status :显示节点存储和连接的当前状态的网页。
  • Hadoop Service Availability :显示所有可用服务状态的网页。
  • Hadoop YARN Status :显示当前正在运行的 MapReduce 作业和 YARN 平台上作业的日志。

构建和管理 Azure HDInsight 集群

五、操作流程总结与对比

为了让大家更清晰地了解上述操作,下面通过流程图和表格对关键操作流程进行总结和对比。

1. MapReduce 作业提交流程
graph LR
    A[定义作业] --> B[执行作业]
    B --> C[等待作业完成]
    C --> D[获取日志输出]
    A --> |指定参数| A1[Jar 文件位置]
    A --> |指定参数| A2[作业类名]
    A --> |指定参数| A3[输入输出文件路径]
    B --> |选择集群| B1[指定集群名称]
    D --> |获取结果| E[生成输出文件 URI]
    E --> F[搜索特定单词]
2. Hive 操作流程
graph LR
    A[上传数据文件] --> B[连接到集群]
    B --> C[创建 Hive 表]
    C --> D[查看元存储表]
    D --> E[执行查询]
    E --> F[获取作业信息]
    E --> |另一种方式| G[定义 Hive 作业]
    G --> H[启动 Hive 作业]
    H --> I[等待作业完成]
    I --> J[获取作业结果]
    A --> |使用 cmdlet| A1[Set - AzureStorageBlobContent]
    B --> |使用 cmdlet| B1[Use - AzureHDInsightCluster]
    C --> |使用 cmdlet| C1[Invoke - Hive]
    D --> |使用 cmdlet| D1[Invoke - Hive]
    E --> |使用 cmdlet| E1[Invoke - Hive]
    F --> |使用 cmdlet| F1[Get - AzureHDInsightJob]
    G --> |使用 cmdlet| G1[New - AzureHDInsightHiveJobDefinition]
    H --> |使用 cmdlet| H1[Start - AzureHDInsightJob]
    I --> |使用 cmdlet| I1[Wait - AzureHDInsightJob]
    J --> |使用 cmdlet| J1[Get - AzureHDInsightJobOutput]
3. 操作对比表格
操作类型 主要 cmdlet 关键参数 适用场景
集群管理 Get - AzureHDInsightCluster
Remove - AzureHDInsightCluster
-Name 创建、查看和删除集群
MapReduce 作业 New - AzureHDInsightMapReduceJobDefinition
Start - AzureHDInsightJob
Wait - AzureHDInsightJob
Get - AzureHDInsightJobOutPut
-JarFile
-ClassName
-Arguments
-Cluster
提交和管理 MapReduce 作业
Hive 操作 Set - AzureStorageBlobContent
Use - AzureHDInsightCluster
Invoke - Hive
New - AzureHDInsightHiveJobDefinition
Start - AzureHDInsightJob
Wait - AzureHDInsightJob
Get - AzureHDInsightJobOutput
-File
-Container
-Blob
-context
-ClusterName
-Query
-JobDefinition
上传数据、创建表、执行查询和管理 Hive 作业
访问节点 远程桌面配置 用户名、密码、过期日期 远程访问头节点进行特殊配置
六、注意事项和最佳实践
  1. 数据存储 :在使用 HDInsight 时,建议使用 Azure 存储来存储数据,因为集群释放后,内部虚拟机上的数据会丢失。例如,在 Hive 操作中,将数据文件上传到 Azure 存储的容器中,确保数据的持久性。
  2. Hive 操作限制 :当前版本的 Hive 不支持插入、更新和删除操作,因此在设计数据处理流程时,要明确 Hive 的适用场景,主要用于以大量扫描为中心的查询。
  3. 远程访问安全 :在配置远程访问头节点时,要设置合理的过期日期,确保系统安全。过期日期应在创建日期后的七天内,避免长时间开放远程访问带来的安全风险。
  4. 作业监控 :通过作业计数器和日志输出,及时了解作业的运行情况,进行性能优化。例如,根据计数器信息,分析作业执行过程中消耗的时间和读取的字节大小,找出可能的性能瓶颈。
七、总结

通过以上内容,我们详细介绍了 Azure HDInsight 集群的构建、管理以及相关操作。包括创建和删除集群、提交 MapReduce 作业、使用 Hive 进行数据查询以及访问 HDInsight 节点等操作。同时,通过流程图和表格对操作流程进行了总结和对比,方便大家理解和掌握。在实际应用中,要根据具体需求选择合适的操作方法,并遵循注意事项和最佳实践,以确保系统的高效运行和数据的安全可靠。希望这些内容对大家在使用 Azure HDInsight 时有所帮助。

已经博主授权,源码转载自 https://pan.quark.cn/s/053f1da40351 在计算机科学领域,MIPS(Microprocessor without Interlocked Pipeline Stages)被视作一种精简指令集计算机(RISC)的架构,其应用广泛存在于教学实践嵌入式系统设计中。 本篇内容将深入阐释MIPS汇编语言中涉及数组处理的核心概念与实用操作技巧。 数组作为一种常见的数据结构,在编程中能够以有序化的形式储存及访问具有相同类型的数据元素集合。 在MIPS汇编语言环境下,数组通常借助内存地址与索引进行操作。 以下列举了运用MIPS汇编处理数组的关键要素:1. **数据存储**: - MIPS汇编架构采用32位地址系统,从而能够访问高达4GB的内存容量。 - 数组元素一般以连续方式存放在内存之中,且每个元素占据固定大小的字节空间。 例如,针对32位的整型数组,其每个元素将占用4字节的存储空间。 - 数组首元素的地址被称为基地址,而数组任一元素的地址可通过基地址加上元素索引乘以元素尺寸的方式计算得出。 2. **寄存器运用**: - MIPS汇编系统配备了32个通用寄存器,包括$zero, $t0, $s0等。 其中,$zero寄存器通常用于表示恒定的零值,$t0-$t9寄存器用于暂存临时数据,而$s0-$s7寄存器则用于保存子程序的静态变量或参数。 - 在数组处理过程中,基地址常被保存在$s0或$s1寄存器内,索引则存储在$t0或$t1寄存器中,运算结果通常保存在$v0或$v1寄存器。 3. **数组操作指令**: - **Load/Store指令**:这些指令用于在内存与寄存器之间进行数据传输,例如`lw`指令用于加载32位数据至寄存器,`sw`指令...
根据原作 https://pan.quark.cn/s/cb681ec34bd2 的源码改编 基于Python编程语言完成的飞机大战项目,作为一项期末学习任务,主要呈现了游戏开发的基本概念技术方法。 该项目整体构成约500行代码,涵盖了游戏的核心运作机制、图形用户界面以及用户互动等关键构成部分。 该项目配套提供了完整的源代码文件、相关技术文档、项目介绍演示文稿以及运行效果展示视频,为学习者构建了一个实用的参考范例,有助于加深对Python在游戏开发领域实际应用的认识。 我们进一步研究Python编程技术在游戏开发中的具体运用。 Python作为一门高级编程语言,因其语法结构清晰易懂拥有丰富的库函数支持,在开发者群体中获得了广泛的认可使用。 在游戏开发过程中,Python经常与Pygame库协同工作,Pygame是Python语言下的一款开源工具包,它提供了构建2D游戏所需的基础功能模块,包括窗口系统管理、事件响应机制、图形渲染处理、音频播放控制等。 在"飞机大战"这一具体游戏实例中,开发者可能运用了以下核心知识点:1. **Pygame基础操作**:掌握如何初始化Pygame环境,设定窗口显示尺寸,加载图像音频资源,以及如何启动结束游戏的主循环流程。 2. **面向对象编程**:游戏中的飞机、子弹、敌人等游戏元素通常通过类的设计来实现,利用实例化机制来生成具体的游戏对象。 每个类都定义了自身的属性(例如位置坐标、移动速度、生命值状态)方法(比如移动行为、碰撞响应、状态更新)。 3. **事件响应机制**:Pygame能够捕获键盘输入鼠标操作事件,使得玩家可以通过按键指令来控制飞机的移动射击行为。 游戏会根据这些事件的发生来实时更新游戏场景状态。 4. **图形显示与刷新**:...
【顶级SCI复现】高比例可再生能源并网如何平衡灵活性与储能成本?虚拟电厂多时间尺度调度及衰减建模(Matlab代码实现)内容概要:本文围绕高比例可再生能源并网背景下虚拟电厂的多时间尺度调度与储能成本优化问题展开研究,重点探讨如何在保证系统灵活性的同时降低储能配置与运行成本。通过构建多时间尺度(如日前、日内、实时)协调调度模型,并引入储能设备衰减建模,提升调度精度与经济性。研究结合Matlab代码实现,复现顶级SCI论文中的优化算法与建模方法,涵盖鲁棒优化、分布鲁棒、模型预测控制(MPC)等先进手段,兼顾风光出力不确定性与需求响应因素,实现虚拟电厂内部多能源协同优化。; 适合人群:具备一定电力系统基础知识Matlab编程能力的研究生、科研人员及从事新能源、智能电网、能源互联网领域的工程技术人员。; 使用场景及目标:① 掌握虚拟电厂多时间尺度调度的核心建模思路与实现方法;② 学习如何将储能寿命衰减纳入优化模型以提升经济性;③ 复现高水平SCI论文中的优化算法与仿真流程,服务于科研论文写作与项目开发。; 阅读建议:建议结合文中提供的Matlab代码逐模块分析,重点关注目标函数设计、约束条件构建及求解器调用过程,配合实际案例数据进行调试与验证,深入理解优化模型与物理系统的映射关系。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值