GPFS修改IP失败

本文记录了在修改/etc/hosts及网络脚本后,GPFS集群无法正常启动的问题及解决过程。主要错误信息包括无法达到任何仲裁节点、无法获取配置文件锁等。通过强制修改mmsdrfs文件中的IP地址,最终成功启动了GPFS集群。
部署运行你感兴趣的模型镜像

修改/etc/hosts和/etc/sysconfig/network-scripts之后,开启GPFS不能成功

 

[root@gpfsfpo1 network-scripts]# mmstartup -a
get file failed: Unable to reach any quorum node (Check your firewall or network settings) (err 823)
gpfsClusterInit: Unexpected error from ccr fget mmsdrfs.  Return code: 149
mmstartup: Command failed. Examine previous error messages to determine cause

 

[root@gpfsfpo1 network-scripts]# mmlscluster
get file failed: Unable to reach any quorum node (Check your firewall or network settings) (err 823)
gpfsClusterInit: Unexpected error from ccr fget mmsdrfs.  Return code: 149
mmlscluster: Command failed. Examine previous error messages to determine cause.
[root@gpfsfpo1 network-scripts]# mmchnode --daemon-interface=gpfsfpo-daemon1 -N gpfsfpo1
mmchnode: Unable to obtain the GPFS configuration file lock.
mmchnode: GPFS was unable to obtain a lock from node gpfsfpo1.
mmchnode: Command failed. Examine previous error messages to determine cause.
[root@gpfsfpo1 network-scripts]# mmchcluster --ccr-disable
mmchcluster: Unable to obtain the GPFS configuration file lock.
mmchcluster: GPFS was unable to obtain a lock from node gpfsfpo1.
mmchcluster: Processing continues without lock protection.
mmchcluster: Cluster Export Services are enabled on the following nodes:
gpfsfpo1
gpfsfpo2
Cluster Export Services require CCR to be enabled.
  Disable CCR is not allowed without --force option.
mmchcluster: Command failed. Examine previous error messages to determine cause.
[root@gpfsfpo1 network-scripts]# mmchcluster --ccr-disable --force
mmchcluster: Unable to obtain the GPFS configuration file lock.
mmchcluster: GPFS was unable to obtain a lock from node gpfsfpo1.
mmchcluster: Processing continues without lock protection.
Verifying GPFS is stopped on all nodes ...
mmchcluster: GPFS cluster configuration servers:
mmchcluster:   Primary server:    gpfsfpo1
mmchcluster:   Secondary server:  gpfsfpo2
mmchcluster: Command successfully completed
[root@gpfsfpo1 network-scripts]# mmlscluster

GPFS cluster information
========================
  GPFS cluster name:         gpfs.FPO
  GPFS cluster id:           5710580052883819165
  GPFS UID domain:           gpfs.FPO
  Remote shell command:      /usr/bin/ssh
  Remote file copy command:  /usr/bin/scp
  Repository type:           server-based

GPFS cluster configuration servers:
-----------------------------------
  Primary server:    gpfsfpo1
  Secondary server:  gpfsfpo2

 Node  Daemon node name  IP address     Admin node name  Designation
---------------------------------------------------------------------
   1   gpfsfpo-daemon1   192.168.4.142  gpfsfpo1         quorum-manager
   2   gpfsfpo-daemon2   192.168.4.144  gpfsfpo2         quorum-manager

[root@gpfsfpo1 network-scripts]# mmchnode --daemon-interface=gpfsfpo-daemon1 -N gpfsfpo1
Tue Aug 15 22:08:27 EDT 2017: mmchnode: Processing node gpfsfpo1
Verifying GPFS is stopped on all nodes ...

gpfsfpo2:  mmremote: Unable to determine the local node identity.
gpfsfpo2:  mmremote: Command failed. Examine previous error messages to determine cause.
mmchnode: Propagating the cluster configuration data to all
  affected nodes.  This is an asynchronous process.
[root@gpfsfpo1 network-scripts]# mmchnode --daemon-interface=gpfsfpo-daemon2 -N gpfsfpo2
mmremote: Unable to determine the local node identity.
mmremote: Command failed. Examine previous error messages to determine cause.
mmremote: Unable to determine the local node identity.
mmremote: Command failed. Examine previous error messages to determine cause.
mmchnode: syncServerNodes: Unable to obtain mmsdrfs version line from backup server.
mmchnode: Command failed. Examine previous error messages to determine cause.

 

 

按照http://nixys.fr/blog/?p=2152的方法

强行修改vi /var/mmfs/gen/mmsdrfs里面的ip地址

 

[root@gpfsfpo1 network-scripts]# mmstartup -a
Tue Aug 15 22:15:16 EDT 2017: mmstartup: Starting GPFS ...
[root@gpfsfpo1 network-scripts]# mmgetstate -a

 Node number  Node name        GPFS state
------------------------------------------
       1      gpfsfpo-daemon1  arbitrating
       2      gpfsfpo-daemon2  arbitrating
[root@gpfsfpo1 network-scripts]# mmgetstate -a

 Node number  Node name        GPFS state
------------------------------------------
       1      gpfsfpo-daemon1  active
       2      gpfsfpo-daemon2  active

 

集群可以被拉起了

您可能感兴趣的与本文相关的镜像

Dify

Dify

AI应用
Agent编排

Dify 是一款开源的大语言模型(LLM)应用开发平台,它结合了 后端即服务(Backend as a Service) 和LLMOps 的理念,让开发者能快速、高效地构建和部署生产级的生成式AI应用。 它提供了包含模型兼容支持、Prompt 编排界面、RAG 引擎、Agent 框架、工作流编排等核心技术栈,并且提供了易用的界面和API,让技术和非技术人员都能参与到AI应用的开发过程中

g0601 0 | distributed init (rank 0): env:// Traceback (most recent call last): File "/gpfs/home/Z24301087/rab/Repetition/detr/main.py", line 249, in <module> main(args) File "/gpfs/home/Z24301087/rab/Repetition/detr/main.py", line 107, in main utils.init_distributed_mode(args) File "/gpfs/home/Z24301087/rab/Repetition/detr/util/misc.py", line 426, in init_distributed_mode torch.distributed.init_process_group(backend=args.dist_backend, init_method=args.dist_url, File "/gpfs/home/Z24301087/miniconda3/envs/yolo/lib/python3.10/site-packages/torch/distributed/c10d_logger.py", line 83, in wrapper return func(*args, **kwargs) File "/gpfs/home/Z24301087/miniconda3/envs/yolo/lib/python3.10/site-packages/torch/distributed/c10d_logger.py", line 97, in wrapper func_return = func(*args, **kwargs) File "/gpfs/home/Z24301087/miniconda3/envs/yolo/lib/python3.10/site-packages/torch/distributed/distributed_c10d.py", line 1520, in init_process_group store, rank, world_size = next(rendezvous_iterator) File "/gpfs/home/Z24301087/miniconda3/envs/yolo/lib/python3.10/site-packages/torch/distributed/rendezvous.py", line 265, in _env_rendezvous_handler master_addr = _get_env_or_raise("MASTER_ADDR") File "/gpfs/home/Z24301087/miniconda3/envs/yolo/lib/python3.10/site-packages/torch/distributed/rendezvous.py", line 243, in _get_env_or_raise raise _env_error(env_var) ValueError: Error initializing torch.distributed using env:// rendezvous: environment variable MASTER_ADDR expected, but not set
最新发布
10-25
05-09
<think>好的,用户想了解IBM Spectrum Scale GPFS文件系统的配置和使用。我需要先回顾一下已有的引用资料,看看有哪些相关信息可以整合。 首先,引用[3]提到了搭建和简单使用GPFS,包括节点添加的命令,比如`spectrumscalenodeadd`和`spectrumscalenodelist`。这些命令应该是配置集群节点的关键步骤。可能需要详细说明如何添加节点和验证配置。 然后,引用[2]提到了Windows节点的集群配置,使用`mmwinrsh`实用程序。但用户的问题可能更偏向于通用配置,不过如果有涉及Windows的部分,也需要提及,但可能用户更关注Linux环境。 引用[1]介绍了不变文件集,用于合规性需求,比如SEC17a-4f。这部分在配置中可能属于高级功能,用户可能需要了解如何配置不可变文件集以满足法规要求。 接下来,用户需要配置和使用的基本步骤。应该分步骤说明,包括环境准备、节点配置、文件系统创建、挂载和使用,以及高级功能如不变性配置。每个步骤需要给出具体命令和示例,这样用户能直接操作。 另外,用户可能关心性能优化,比如参数调优,引用中虽然没有直接提到,但根据GPFS的常见配置,可以建议调整块大小、缓存等参数。 注意事项部分需要涵盖网络、存储、权限和合规性,特别是引用[1]中的合规性评估,提醒用户根据法规配置不变文件集。 相关问题部分,需要覆盖安装、性能、容灾、不变性、Windows集成和监控命令。这些问题能帮助用户深入了解更多细节。 需要确保使用中文回答,LaTeX格式正确,行内公式用$...$,独立公式用$$...$$。不过当前问题主要涉及配置命令,可能数学公式较少,但如果有参数设置可能需要用LaTeX,比如存储容量计算。 检查是否有遗漏的信息点,比如节点添加的具体命令、文件系统创建命令、挂载步骤,以及合规性配置。确保步骤逻辑清晰,用户能一步步跟随操作。 最后,验证提供的命令是否正确,比如`mmcrfs`、`mmlsfs`等是否是GPFS的标准命令,避免错误。同时,引用标记要正确对应,比如不变性配置引用[^1],Windows节点引用[^2],搭建步骤引用[^3]。 现在整理结构,确保每个部分有明确的标题,代码块正确使用语法,相关问题覆盖用户可能感兴趣的扩展内容。</think>### IBM Spectrum Scale (GPFS) 文件系统配置与使用指南 IBM Spectrum Scale(原名GPFS)是一种高性能、可扩展的并行文件系统,适用于大规模数据存储和高并发访问场景。以下是其核心配置与使用步骤: --- #### 一、基础配置步骤 1. **环境准备** - 确保集群节点间网络互通,时间同步(NTP服务),SSH免密登录已配置。 - 所有节点安装IBM Spectrum Scale软件包[^3]。 2. **节点配置** ```bash # 添加节点到集群 ./spectrumscalenodeadd gpfs101 -p ./spectrumscalenodeadd gpfs102 -p ./spectrumscalenodeadd gpfs103 -p # 验证节点列表 ./spectrumscalenodelist ``` 3. **创建文件系统** ```bash # 创建NSD(网络共享磁盘) mmcrnsd -F nsd_descriptor_file # 创建GPFS文件系统 mmcrfs /dev/gpfs -F nsd_descriptor_file -A yes -T /mnt/gpfs ``` 4. **挂载与使用** ```bash # 挂载文件系统 mmmount /mnt/gpfs # 查看文件系统状态 mmlsfs all ``` --- #### 二、高级功能:不变性配置 为满足合规性要求(如SEC17a-4f),可配置**不可变文件集**: ```bash # 创建不可变文件集 mmcrfileset gpfs_immutable --inode-space new --inode-limit 1000000 # 设置文件集为不可变 mmchfileset gpfs_immutable -i immutable ``` 此功能通过防止数据篡改满足美国和欧洲法规要求[^1]。 --- #### 三、Windows节点集成 若集群包含Windows节点,需配置`mmwinrsh`服务: ```bash # 在Linux节点配置Windows通信 /usr/lpp/mmfs/bin/mmwinrsh <Windows节点名> <命令> ``` 详细配置参考`mmwinservctl`命令文档[^2]。 --- #### 四、性能优化建议 1. **调整I/O参数**: ```bash mmchconfig maxBlocksPerRequest=1024 -i ``` 2. **负载均衡**: ```bash mmrestripefs gpfs -b ``` --- #### 注意事项 1. 确保存储设备**均匀分布**以避免热点问题。 2. 使用`mmdiag`和`mmlsdisk`监控磁盘健康状态。 3. 合规性场景需定期审计不可变文件集[^1]。 ---
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值