同一个VG的内可以lv重名么?
http://www.aixchina.net/home/space.php?uid=1006&do=blog&id=40117
写的不错
其中:
2.2.5. 修改loglv
这一步有2个目的,一是避免两边loglv重名,二是规范loglv的取名,使它看起来更清楚明了。
host1vg (host2vg也要修改)
1) 察看
[host1][root][/]>varyonvg host1vg
[host1][root][/]>lsvg -l host1vg
host1vg:
LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINT
ora11runclv jfs2 40 40 1 closed/syncd /ora11runc
loglv02 jfs2log 1 1 1 closed/syncd N/A
umount vg上所有fs
如 umount /ora11runc
2) 修改loglv名称
[host1][root][/]> chlv -n host1_loglv loglv02
0516-712 chlv: The chlv succeeded, however chfs must now be
run on every filesystem which references the old log name loglv02.
[host1][root][/]>lsvg -l host1vg
host1vg:
LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINT
ora11runclv jfs2 40 40 2 closed/syncd /ora11runc
host1_loglv jfs2log 1 1 1 closed/syncd N/A
[host1][root][/]> vi /etc/filesystems
将"log = /dev/loglv02"的改为"log =/dev/host1_loglv"
确认:
[host1][root][/]>mount /ora11runc
此选项决定了HACMP的IP切换方式,但值得一提的是只有“boot1/boot”、“boot2/standby”、“svc/service”三个IP分别为三个不同网段时必须选用IP Aliases方式。
如果““boot1/boot”、“boot2/standby”其中一个与“svc/service”为同一个网段时必须选用IP Replace方式,则此选项应选“NO”。
2. 磁盘心跳
smitty hacmp->System Management (C-SPOC)
->Storage->Volume Groups
->Manage Concurrent Access Volume Groups for Multi-Node Disk Heartbeat
-> Create a new Volume Group and Logical Volume for Multi-Node Disk Heartbeat
2.3.5. 察看确认拓扑(toplog)结构
2.4.2. 检查和同步HACMP配置
(注意:以上配置均在host1上完成,同步至少2次,先强制同步到host2)
smitty hacmp ->Extended Configuration
->Extended Verification and Synchronization
1)首次强制同步:
HACMP Verification and Synchronization
Type or select values in entry fields.
Press Enter AFTER making all desired changes.
[Entry Fields]
* Verify, Synchronize or Both [Both]
* Automatically correct errors found during [Yes]
verification?
* Force synchronization if verification fails? [Yes]
* Verify changes only? [No]
* Logging [Standard]
2)二次同步:
HACMP Verification and Synchronization
Type or select values in entry fields.
Press Enter AFTER making all desired changes.
[Entry Fields]
* Verify, Synchronize or Both [Both]
* Automatically correct errors found during [Yes]
verification?
* Force synchronization if verification fails? [No]
* Verify changes only? [No]
* Logging [Standard]
2.2.2. 修改/etc/hosts
修改确认每台机器/etc/hosts为:
127.0.0.1 loopback localhost # loopback (lo0) name/address
10.2.2.1 host1_l2_boot1
10.2.1.21 host1_l1_boot1 host1
10.2.200.1 host1_l2_svc
10.2.100.1 host1_l1_svc1
10.2.101.1 host1_l1_svc2
10.2.12.1 host1_l2_boot2
10.2.11.1 host1_l1_boot2
10.2.2.2 host2_l2_boot1
10.2.1.22 host2_l1_boot1 host2
10.2.200.2 host2_l2_svc
10.2.100.2 host2_l1_svc1
10.2.101.2 host2_l1_svc2
10.2.12.2 host2_l2_boot2
10.2.11.2 host2_l1_boot2
注:正式配置之前,主机名落在boot地址上,待配置完成后将改为服务IP地址上。
确认:
[host1][root][/]>rsh host2 date
Wed Sep 11 15:46:06 GMT+08:00 2013
[host2][root][/]>rsh host1 date
Wed Sep 11 15:46:06 GMT+08:00 2013
[host1][root][/]#rsh host1 ls -l /usr/es/sbin/cluster/etc/rhosts
-rw------- 1 root system 237 Sep 11 15:45 /usr/es/sbin/cluster/etc/rhosts
[host1][root][/]#rsh host2 ls -l /usr/es/sbin/cluster/etc/rhosts
-rw------- 1 root system 237 Sep 11 15:45 /usr/es/sbin/cluster/etc/rhosts
将其改为svc的地址上,因为HACMP启动后即以此地址对外服务,主机名需要对应。
10.2.2.1 host1_l2_boot1
10.2.1.21 host1_l1_boot1
10.2.200.1 host1_l2_svc host1
10.2.100.1 host1_l1_svc1
10.2.101.1 host1_l1_svc2
10.2.12.1 host1_l2_boot2
10.2.11.1 host1_l1_boot2
10.2.2.2 host2_l2_boot1
10.2.1.22 host2_l1_boot1
10.2.200.2 host2_l2_svc host2
10.2.100.2 host2_l1_svc1
10.2.101.2 host2_l1_svc2
10.2.12.2 host2_l2_boot2
10.2.11.2 host2_l1_boot2
运行命令/usr/es/sbin/cluster/utilities/clchsyncd 10亦可
由于AIX会cache路由配置,因此需要修改一些参数:
routerevalidate
[host2][root][/]no -po routerevalidate=1
Setting routerevalidate to 1
Setting routerevalidate to 1 in nextboot file
确认:
[host2][root][/]#no -a|grep routerevalidate
routerevalidate = 1
2.2.1. 修改.rhosts
修改确认每台机器/.rhosts为:
[host1][root]vi /.rhosts
host1
host1_l2_boot1
host1_l1_boot1
host1_l2_svc
host1_l1_svc1
host1_l1_svc2
host1_l2_boot2
host1_l1_boot2
host2
host2_l2_boot1
host2_l1_boot1
host2_l2_svc
host2_l1_svc1
host2_l1_svc2
host2_l2_boot2
host2_l1_boot2
注意权限修改:
chmod 644 /.rhosts
在HACMP 6.1中 为了安全起见,不再使用/.rhosts 文件来控制两台机器之间的命令和数据交换,使用 /usr/es/sbin/cluster/etc/rhosts 文件来代替 /.rhosts 文件的功能。
注意:如果两个节点间的通讯发生了什么问题,可以检查rhosts 文件,或者编辑rhosts文件加入两个节点的网络信息。为方便配置期间检查发现问题,配置期间我们让/.rhosts和HACMP的rhosts一致。
不知道是否正确:
2.5.3. 配置clinfo注:对于双节点,clstat等监控集群信息软件的基础为clinfoES服务,必须运行在每个Node节点上。
1)修改确认每台机器的/es/sbin/cluster/etc/clhosts为:
127.0.0.1 loopback localhost # loopback (lo0) name/address
10.2.2.1 host1_l2_boot1
10.2.1.21 host1_l1_boot1 host1
10.2.200.1 host1_l2_svc
10.2.100.1 host1_l1_svc1
10.2.101.1 host1_l1_svc2
10.2.12.1 host1_l2_boot2
10.2.11.1 host1_l1_boot2
10.2.2.2 host2_l2_boot1
10.2.1.22 host2_l1_boot1 host2
10.2.200.2 host2_l2_svc
10.2.100.2 host2_l1_svc1
10.2.101.2 host2_l1_svc2
10.2.12.2 host2_l2_boot2
10.2.11.2 host2_l1_boot2
执行拷贝:
rcp /usr/es/sbin/cluster/etc/clhosts host2:/usr/es/sbin/cluster/etc/clhosts
2)将snmp v3转换为snmp v1
/usr/sbin/snmpv3_ssw -1
3) 修改启动clinfoES
chssys -s clinfoES -a "-a"
startsc -s clinfoES
确认:
[host1][root][/]#rsh host1 ls -l /usr/es/sbin/cluster/etc/clhosts
-rw-r--r-- 1 root system 4148 Sep 16 10:27 /usr/es/sbin/cluster/etc/clhosts
[host1][root][/]#rsh host2 ls -l /usr/es/sbin/cluster/etc/clhosts
-rw-r--r-- 1 root system 4148 Sep 16 10:27 /usr/es/sbin/cluster/etc/clhosts
/usr/es/sbin/cluster/clstat运行不报错。
注意:此步骤不能疏漏,必须确保clinfo实施完成后正常运行,否则后续集群状态检查cldump、clstat将均报错,集群状态将无法检查监控。
2.5.5. 确认HACMP配置完成 使用HACMP的工具clverify,cldump,clstat检查,参见运维篇的日常检查一节。另外从安全角度,记得清理掉 /.rhosts文件。
3.2.3. HACMP的DMS问题的修正
DMS(deadman switch)是用来描述系统kernel extension用的,它可以在系统崩溃前down掉系统,并产生dump 文件,以供日后检查。
DMS存在的目的是为了保护共享外置硬盘及数据,当系统挂起时间长过一定限制时间时,DMS会自动down掉该系统,由HACMP的备份节点接管系统,以保护数据和业务的正常进行,避免潜在的问题,特别是外置磁盘阵列。
errpt确认DMS的发生:
LABEL: KERNEL_PANIC
IDENTIFIER: 225E3B63
Date/Time: Thu Apr 25 21:26:16
Sequence Number: 609
Machine Id: 0040613A4C00
Node Id: localhost
Class: S
Type: TEMP
Resource Name: PANIC
Descrīption
SOFTWARE PROGRAM ABNORMALLY TERMINATED
Recommended Actions
PERFORM PROBLEM DETERMINATION PROCEDURES
Detail Data
ASSERT STRING
PANIC STRING
DMS起作用的原因主要有以下几点:
Ø 某种应用程序的优先级大于clstrmgr deamon , 导致clstrmgr无法正常reset DMS计数器。
Ø 在系统上存在大量IO 操作, 导致CPU 没有时间相应clstrmgr deamon .
Ø 内存泄漏或溢出问题
Ø 大量的系统错误日志活动。
换句话说,当以上情况出现时,HACMP认为系统崩溃,会自动切换到另一台节点机上去,这是我们想要的结果吗?
一般情况下,原有的缺省设置无需更改。但由于系统运行了较长时间后,负荷可突破原有设计(平均小于45%),而且某些情况下会持续100%,我们就不希望发生切换。如果发生了DMS造成的切换,我们先延长HACMP的确认的时间,即调整心跳线的诊断频率:
smitty HACMP->Extended Topology Configuration
->Configure HACMP Network Modules
-> Change a Network Module using Predefined Values选择r232
* Network Module Name rs232
Description RS232 Serial Protocol
Failure Detection Rate Slow
NOTE: Changes made to this panel must be
propagated to the other nodes by
Verifying and Synchronizing the cluster
同样,记得同步HACMP。
如果还是发生DMS导致的HACMP切换,排除异常后,只好禁用DMS了,这点IBM不推荐,因为有可能造成切换时数据丢失或损坏。
修改rc.cluster 文件增加-D参数:
[host1][root][/]> vi /usr/es/sbin/cluster/etc/rc.cluster
if [ "$VERBOSE_LOGGING" = "high" ]
then
clstart -D -smG $CLINFOD $BCAST
else
clstart -D -smG $CLINFOD $BCAST 2>/dev/console
fi
重起HACMP生效。
3.2.4. snmp的调整(AIX5.3不需要)在aix5.2 下要对snmp 做一些调整才可以看到真正的HACMP的状态。
具体来说, aix 5.2 的 snmp 默认是version 3 :
[host1][root][/]>ls -l |grep snmp
lrwxrwxrwx 1 root system 8 Apr 08 17:55 clsnmp -> clsnmpne
-rwxr-x--- 1 root system 83150 Mar 12 2003 clsnmpne
-rwxr-x--- 1 root system 55110 Mar 12 2003 pppsnmpd
lrwxrwxrwx 1 root system 9 Apr 08 17:55 snmpd -> snmpdv3ne
而HACMP 只支持snmp version 1 . 所以我们要做一下调整:
stopsrc -s snmpd
/usr/sbin/snmpv3_ssw -1
startsrc -s snmpd
[host1][root][/usr/sbin]>ls -l |grep snmp
lrwxrwxrwx 1 root system 18 Apr 21 13:40 clsnmp -> /usr/sbin/clsnmpne
-rwxr-x--- 1 root system 83150 Mar 12 2003 clsnmpne
-rwxr-x--- 1 root system 55110 Mar 12 2003 pppsnmpd
lrwxrwxrwx 1 root system 17 Apr 21 13:40 snmpd -> /usr/sbin/snmpdv1
本文详细介绍了AIX环境下HACMP集群的配置过程,包括修改日志卷组名称、同步配置、磁盘心跳设置、解决DMS问题等内容。针对配置过程中可能遇到的具体问题给出了详细的解决方案。
1531

被折叠的 条评论
为什么被折叠?



