今天用户向我抱怨说源数据库从17:30之后的数据在目标数据库上看不到,让我帮忙检查一下GG的状况,我发现所有的一切都是正常的:
1. 不管是extract, pumb, replicat都是running的状态,而且没有lag
2. 在ggserr.log和report文件里都找不到任何的错误提示信息。
用户说上次碰到过一次这样的问题,重启一下replicat就可以了,于是我就试着重启了一下,发现还是不行。
于是我开始怀疑是不是extract端出了问题,终于发现了一点蛛丝马迹:
当前的时间是21:00,extract提前redo的最新时间是14:56(A节点)和15:20(B节点),也就是说这之后的redo log都没有提取出来,可是又没有任何的错误提示信息,再次确认一下是否有lag:
GGSCI (gdcus2040) 10> lag E113RKS1
Sending GETLAG request to EXTRACT E113RKS1 ...
Last record lag: 11 seconds.
At EOF, no more records to process.
显示的结果令人失望,还是说没有lag,于是只好重启extract试一下,重启之后,果然好了,用户兴奋地说:”YES! lots of data coming to target database!“,我看了下report文件,确实显示大量的redo被提取出来了:
再用info看一下extract:
发现时间已经更新到了当前时间了。
问题解决,可是原因是什么呢?貌似没有任何的错误和警告信息,应该是GG的一个bug吧。
1. 不管是extract, pumb, replicat都是running的状态,而且没有lag
2. 在ggserr.log和report文件里都找不到任何的错误提示信息。
用户说上次碰到过一次这样的问题,重启一下replicat就可以了,于是我就试着重启了一下,发现还是不行。
于是我开始怀疑是不是extract端出了问题,终于发现了一点蛛丝马迹:
| GGSCI (gdcus2040) 11> info E113RKS1 EXTRACT E113RKS1 Last Started 2011-11-15 22:30 Status RUNNING Checkpoint Lag 00:00:00 (updated 00:00:06 ago) Log Read Checkpoint Oracle Redo Logs 2011-11-16 14:56:25 Thread 1, Seqno 1002, RBA 27567224 Log Read Checkpoint Oracle Redo Logs 2011-11-16 15:20:30 Thread 2, Seqno 535, RBA 19087480 |
当前的时间是21:00,extract提前redo的最新时间是14:56(A节点)和15:20(B节点),也就是说这之后的redo log都没有提取出来,可是又没有任何的错误提示信息,再次确认一下是否有lag:
GGSCI (gdcus2040) 10> lag E113RKS1
Sending GETLAG request to EXTRACT E113RKS1 ...
Last record lag: 11 seconds.
At EOF, no more records to process.
显示的结果令人失望,还是说没有lag,于是只好重启extract试一下,重启之后,果然好了,用户兴奋地说:”YES! lots of data coming to target database!“,我看了下report文件,确实显示大量的redo被提取出来了:
| 2011-11-16
21:09:26 INFO OGG-01517 Position of first record processed for Thread 2,
Sequence 535, RBA 19087376, SCN 0.71911647, Nov 16, 2011 3:20:30 PM. 1000 records processed as of 2011-11-16 21:09:33 (rate 11525,delta 11525) 2000 records processed as of 2011-11-16 21:09:34 (rate 10103,delta 8994) 3000 records processed as of 2011-11-16 21:09:34 (rate 9615,delta 8767) 4000 records processed as of 2011-11-16 21:09:34 (rate 9093,delta 7820) 5000 records processed as of 2011-11-16 21:09:34 (rate 9004,delta 8666) 6000 records processed as of 2011-11-16 21:09:34 (rate 9034,delta 9189) |
| GGSCI (gdcus2040) 24> info E113RKS1 EXTRACT E113RKS1 Last Started 2011-11-16 21:09 Status RUNNING Checkpoint Lag 00:00:00 (updated 00:00:07 ago) Log Read Checkpoint Oracle Redo Logs 2011-11-16 21:09:33 Thread 1, Seqno 1002, RBA 80289280 Log Read Checkpoint Oracle Redo Logs 2011-11-16 21:09:35 Thread 2, Seqno 535, RBA 34008592 |
发现时间已经更新到了当前时间了。
问题解决,可是原因是什么呢?貌似没有任何的错误和警告信息,应该是GG的一个bug吧。
来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/26277071/viewspace-711111/,如需转载,请注明出处,否则将追究法律责任。
转载于:http://blog.itpub.net/26277071/viewspace-711111/
本文记录了一次GoldenGate数据同步故障的排查过程,详细介绍了如何通过检查状态、日志及重启Extract进程来解决问题。
1507

被折叠的 条评论
为什么被折叠?



