- 博客(138)
- 资源 (3)
- 收藏
- 关注

原创 【案例84】不停机方案设计
日常通过防火墙限制人员访问,当维护环境时,通知业务人员自行更换访问地址。打补丁维护时,在B环境上打补丁维护,并且验证。验证通过候,通过流量切换器把流量都切换到B环境上。系统稳定后,再维护A环境,打补丁重启。现有环境不用动,增加B环境,验证通过后接入流量切换器。日常维护简单可控,如果补丁有问题,能迅速切换到另一个集群上,等。环境架构整体变更,新架构测试验证上线时间周期较久,改动很大,等。需投入硬件资源成本、购买相关设备(组件),维护两套环境,等。日常使用,通过流量切换器,把流量固定在A环境上。
2025-02-18 10:10:50
311

原创 【案例83】创建索引开启“并行”引发的血案--记一次Px Deq: Table Q Normal处理过程
查看数据库中正在执行的sql,发现有大量的线程处于的事件为:Px Deq: Table Q Normal(并行等待状态),sql_id都为同一个,说明在做相同的操作开启了大量的并行。(根据level 2的标准,应用动态采样到所有的表,以及为一些标准selectivity值的表使用一些采样预测,采样blocks的数量是默认的动态采样的数量)Level 5~9:采样的表包含满足Level 4定义的所有表,同时分别使用动态采样默认数据块数的2、4、8、32、128倍的数量来进行动态采样。严重影响系统使用体验。
2025-02-18 09:57:38
760

原创 JAVACORE与HEAPDUMP生成方法
目录前言JAVACORE篇:Windows平台:ORACLE JDK:HOTSPOTIBM JDK:V9LINUX平台: HEAPDUMP篇:Windows平台:ORACLE JDK:HOTSPOTIBM JDK:V9LINUX平台:前言在项目上我们经常要生成javacore和heapdump来进行分析。这里总...
2016-11-01 10:52:41
25986
4
原创 【案例93】hosts文件编写错误导致Oracle监听异常
顾问重启数据库服务器的监听,发现监听起来,只显示unknown状态。通过pl/sql连接,提示“无监听程序”,通过netca重建监听的时候提示:为该监听程序提供的信息正由此计算机上的其他软件使用。换了多个端口也是如此。
2025-04-02 16:27:49
146
原创 【案例92】Portal访问异常问题处理记录
NC6.5版本http://IP:端口/portal/app/mockapp/login.jsp?lrid=1 访问报 404 (Not found)页面报错:抱歉, 你请求的页面出错了。
2025-04-02 16:15:46
249
原创 【案例91】记一次高级版升级环境报错“fail to save VO Array”
YonBIP高级版 2305(2207SP) 正式环境升级报错fail to save VO Array ~#@: YonBIP高级版 2305(2207SP) 正式环境升级报错fail to save VO Array日志文件为:nchome/nclogs/server/am-log*.log根据日志发现是 ORA-00001: 违反唯一约束条件 (JKBIP.I_MATERIALCOST_PF_1)根据和开发沟通,该索引I_MATERIALCOST_PF_1可以去掉: Caused by: nc.
2025-04-02 16:08:55
624
原创 【案例89】达梦数据库优化器参数导致的SQL执行错误
客户反馈一个问题,在通过系统打开单据,进行关联用户查询的时候,系统报错:“不支持的复杂查询”。这个报错看上去是SQL语法不受支持导致。但这个SQL为发版标准SQL,是经过验证没有拼接错误的。先手动测试一下SQL。发现直接执行SQL也是有报错。问题依然存在。对比测试,发现这个问题在另一个测试环境没有复现。因此这个问题应该是和参数的调整有关。于是检查正式环境和测试环境的参数对比发现,正式环境的OPTIMIZER_MODE参数被调整过。
2025-04-02 09:39:47
191
原创 【案例88】记一次Uclient添加应用一直显示“失败”的处理案例
9、把Uclient\share下的java1.6.0_17-x86打成zip包,谁客户端有问题,即可把此JDK拷贝到其电脑上,解压,再次添加应用即可全部解决。1、由于安装报错时,要找java1.6.0_17-x86路径的JDK,所以在Uclient\share 下创建文件夹为:java1.6.0_17-x86。找到从服务器上拉取到客户端的JDK,手动安装到uclient\share下,再次重新添加正常。把相关的JDK打包,拷贝到其他不正常客户端的share路径下解压后,再次添加即可全部都恢复。
2025-03-31 10:54:02
740
原创 【案例87】全成本计算报“operating system stack overflow”
全成本计算时,调整计算层次后,进行成本结转与计算,如下图,记录条数少时,可以计算成功,记录条数多少,计算出现报错:operating system stack overflow。设置完后,重新启动WAS中间件,管理会计-产品成本-实际成本处理-全成本计算,业务计算正常完成。通用JVM参数: 增加参数并设置为: -Xss2m -Xmso512k。WAS版本: Websphere 9.0.5.2。设置:-Xss到 -Xss2m、-Xss10m。WAS日志_SystemOut_XXX.log。
2025-03-31 10:42:57
850
原创 【案例86】历史图片损坏导致打印线程卡死问题分享
顾问反馈,更新安全补丁后,打印无法调起打印页面,现阶段全公司的人都无法使用打印功能。需要及时解决。
2025-02-21 15:44:43
386
原创 【案例82】客开导致数据库行锁问题
顾问在操作物料-集团-保存时,发现相关操作非常卡顿,需要排查原因。查看NMC发现相关SQL耗时严重,是一条update语句怀疑是缺少索引导致,故查看了相关sql的执行计划,发现索引非常好,统计信息也准,并且单次执行只需要0.1s。怀疑数据库出现行锁,导致事务不提交,进而把相关update语句堵塞住了。查询堵塞源头192,为server#http-bio-8080-exec-132#物料-集团-保存导致。反关联NMC,查看相关的线程信息发现为自己本身。
2025-01-14 14:51:37
334
原创 【案例81】NMC调用导致数据库的效率问题
排查NMC发现,所有的线程都处于执行SQL层面,说明数据库当前出现了异常。查看数据库资源状态发现,Oracle相关进程CPU利用率达到了100%。查看现在数据库中正在执行的SQL发现有大量的Disk file operations I/O等待时间。查看相关SQL在哪台机器上触发的。NC65系统,正常NMC监控,只配置主机即可,从机不用配置。也可以通过查看SPID对应的进程号,在从机确定对应的PID是什么。在通过PID去获取对应的应用信息,就知道是什么程序调用的了。经过排查,显示也是NMC的进程导致的。
2025-01-14 14:37:20
455
原创 【案例80】麒麟操作系统无法使用Uclient访问NC65
因为NC65使用的是1.7版本的JDK进行编译的。这边拿1.7.0_80版本的JDK,替换原有share文件夹下的JDK。再次访问发现依旧转圈,查看app.esc中的信息,发现程序要找固定的版本路径。3、把可执行的jdk放到此路径下,解压,并根据app.esc中的描述的JDK路径名称来进行命名,默认为java1.7.0_51-x64。查看Uclient的main.log发现,有大量的报错与Uclient下的share文件夹下的jdk有关。麒麟系统使用的是X86架构,顾问下的是arm架构的程序。
2024-12-21 15:52:14
432
原创 【案例79】记一次Client前台卡死,线程抓取过程
AWT-EventQueue-0与SwingWorker-pool-1-thread-1死锁。如何抓取前台客户端监控,可以使用Oracle-JDK自带的工具jconsole.exe。查看NMC监控,发现NMC中无相关代码堆栈、sql卡住。客户端卡顿,首先需要排查电脑的CPU、内存等资源是否耗尽导致的。首先需要先判断卡是出现在前台客户端卡还是后台代码、SQL层面卡。首先排查客户端资源状况,Uclient堆内存配置为4G。dump线程下来,与业务研发沟通,出具补丁修复死锁问题。找到客户端的进程,连接进去。
2024-12-21 15:36:46
319
原创 【案例78】数据库定时任务导致系统卡顿
看着不是标准产品的job,请相关客户DBA排查,相关job是做什么的,如果是必须要操作,建议把执行时间放到夜间。项目多人反馈系统无法登录,要等待很久。有人登录进去后,做打开节点等操作,发现耗时及其严重。查看数据库正在跑的SQL,发现像是在做导数的操作。但不知道什么触发的,怀疑是做了定时任务。查看nmc发现,后台有大量的线程挂起,耗时在数据库层面,说明数据库出现了异常。查看dba_jobs,发现有5个jobs,有3个正在发生问题的时间执行。查看数据库服务磁盘,发现磁盘的等待时间已经达到了100%。
2024-10-30 11:31:04
369
1
原创 【案例77】Npart部署页签失效
在Npart的管理界面中,点击部署,过很长时间显示部署完成,但上角标依旧有未部署的个数,并且在服务器上排查,发现相关参数未同步过来。
2024-10-30 11:23:54
358
原创 【案例76】达梦数据库事务锁导致系统异常处理办法
制单节点保存凭证,发现系统报:有其他用户在操作,请稍后再试。研发解除掉PK锁后,发现问题依旧,怀疑数据库本身有锁,于是需要协助排查。
2024-10-25 17:36:09
527
原创 【案例75】全表扫描导致系统崩溃
操作审批单据本身比较长,在数据库中出现了死锁,死锁处理后,一审批单据就又会整体卡顿。抓取Update语句,查看执行计划发现相关表在走全表扫描,缺少索引,并且单条sql开销巨大,十分消耗CPU的资源。排查NMC发现所有的操作都在等待数据库。查看了审批操作慢,发现要执行大量的update语句耗时严重。开始怀疑有事务锁未释放导致的,先排查数据库当时的状态。监控数据库状态,发现有其他机器也在向数据库中导入数据也比较占用资源。排查服务器的CPU的资源利用率发现,数据库服务器的CPU已经爆表。
2024-10-25 17:24:59
259
原创 【案例73】Uclient无法读取https地址添加应用
查看网络配置逻辑,有个统一绑定域名和证书的Nginx1,用户通过https协议访问Nginx1的Port1端口后,把请求转发到Nginx2的Port2端口上,在通过Nginx2通过http代理把请求转发到NCC的Port3端口上。点击添加应用发现,本来添加地址是https://域名:外网端口,但是相关jar下载地址却变成了http://服务器主机名:外网端口,但服务器内网无相关端口。访问https://域名:端口/app.esc发现,还是走的http协议,说明修改的配置未生效。打相关补丁,重启服务。
2024-09-29 17:47:31
1296
1
原创 【案例72】Apache检测到目标 URL 存在 http host 头攻击漏洞的解决方案
HTTP Host 头是 HTTP 请求中的一个重要部分,它用于指定请求的目标主机和端口。攻击者可以通过操纵 Host 头的值,将请求发送到恶意或未经授权的服务器,从而导致多种安全问题,如跨站脚本攻击(XSS)、缓存中毒、服务器端请求伪造(SSRF)等。在网络安全中,我们经常会遇到各种漏洞和攻击,其中 http host 头攻击漏洞是一种比较常见的安全问题。最近,我在处理一个项目时,检测到目标 URL 存在 http host 头攻击漏洞,下面我将分享两种Apache解决这个问题的方法。
2024-09-14 17:16:37
2133
原创 【案例71】配置https之后 IE打不开登陆页面 Uclient没有问题
IE访问的是login.jsp Uclient不是。通过 F12 查看源文件发现网页中就是调用的https://127.0.0.1:80/Client/java.exe也就是生成html就错了login.jsp ,主要就是调用的 a.jsp。但是通过IE访问却走了https://127.0.0.1:80 ,删除httpd中所有关于80端口的配置,问题依旧。为了保障之前功能逻辑OK,改为当https的时候走443,非https的时候走80。配置https之后 IE打不开登陆页面 Uclient没有问题。
2024-09-14 16:38:27
810
原创 【案例69】IHS过载导致系统异常
但是IHS依旧轮询的把请求分发到02、03上,等待相关服务反馈结果。但由于服务异常,导致无结果返回,因此就处于等待挂载。此报错很清晰,网关多次访问ERP程序,系统超时,所以怀疑是服务宕机或者夯住了导致的。分别访问01、02、03这几个节点,发现只有01能直接登录访问。查看NMC线程信息,发现01上也挂了大量的线程卡主。发现卡主的信息和文件服务器相关,排查文件服务器配置发现。查看负载端口连接数,发现相关的有大量的连接处于被占用未释放或者等待状态。停止IHS释放链接,拉起02、03服务后系统恢复正常。
2024-09-13 11:35:13
418
原创 【案例67】Npart批量启动服务卡顿严重分析过程
去掉相关参数,部署参数到sysconfig中,再次通过Npart批量重启发现。再次观察启动日志发现,启动卡在连接数据库层面。通过Npart启动NC服务,发现只启动一个,大概3min左右即可启动成功。但是批量启动服务需要几十分钟才可以把服务启动成功,启动卡在获取“wenjian”图标处。查看nc-log.log发现有大量报错:获取参数FIP020失败,根据CPU个数获取最大线程数,请检查参数配置。通过checkDB脚本测试,正常应该5s钟有返回值,但是通过测试发现大概1min才会有结果返回。
2024-09-04 16:57:36
386
原创 【案例66】支付指令客户端崩溃分析全过程
月底,需要给人员开工资,但是财务人员在点击【支付状态指令】节点,点击状态确认后,系统直接崩溃,页面都卡掉。人员已经2天未发工资,情况比较紧急。更改Uclient模式从分离模式改为嵌入模式,发现只要输入密码点击确定,系统就会退出转圈。更换Uclient的系统工作目录,问题稳定复现。
2024-09-04 16:48:51
1100
原创 【案例65】WebSphere启动比tomcat启动慢的测试
1.在原先慢的WAS环境下,添加-Dsun.reflect.inflationThreshold=15,可以有效提升was下的响应速度,和Tomcat下速度相当,但该参数=15的情况我们Tomcat以前还没有使用过。b.设置nodeagent的initialHeapSize="1024" maximumHeapSize="2048"(安装NC全模块的时候建议这个)-Xshareclasses:none和-Dsun.reflect.inflationThreshold=0这两个参数,响应速度都较快。
2024-08-29 18:47:26
386
原创 【案例64】无法从套接字读取更多的数据
系统突然间登录报如下错误:SELECT * FROM sm_user WHERE user_code_q=?无法从套接字读取更多的数据。
2024-08-29 18:28:43
995
原创 【案例63】SSL RC4 加密套件支持检测 (Bar Mitzvah)修复方案
找到SSL 密码组配置,Apache 中为:SSLCipherSuite、Nginx 中为:ssl_ciphers。找到ssl 配置文件 > 禁用RC4 密码组 > 重启服务 > 检查是否禁用成功 > 完成。如果可能,请重新配置受影响的应用程序以避免使用 RC4 密码。RC4 密码在伪随机字节流的生成中存在缺陷,导致引入了各种各样的小偏差,降低了其随机。攻击者可利用大量的密文推测明文,导致远程主机信息泄露。RC4,如果不存在,新增即可。如果配置中存在:RC4 密码组,如图。该攻击者可能会推测出明文。
2024-08-28 11:10:59
1671
原创 【案例61】update driver error
顾问在保存数据源时报“update driver error”错误,重启服务器,重启sysConfig.bat后问题依旧。之前碰到这类问题发现是权限的问题。所以先去检查了相关文件夹的权限。查看控制台发现客户用的是非Administrator用户登录,是用TEST用户登录的。所以检查了相关的用户对此文件夹的权限。查看权限如下调整完发现问题依旧,查看sysconfig控制台日志发现,找不到sqlserver的相关驱动造成的。
2024-08-27 11:10:44
430
原创 【案例59】WebSphere类加载跟踪开启方法
WAS加载代码时,模块开发怀疑是WebSphere本身加载某个类的代码出现了问题。但不知道怎么排查。故寻求帮助。
2024-08-26 18:02:26
600
原创 【案例57】记一次类加载导致系统卡死
单独访问从机上的服务做相同单据,显示被锁,nmc中也有相关线程出现。怀疑从机到主机PK锁服务网络不通导致PK锁服务未接收到相关请求的原因造成的。删除单独的锁服务器,恢复master解锁后,单子可以删除。经过排查发现,在单独访问主机的server,直接做相关单子无异常现象。但是NMC中可以看到相关线程都存在PKlockServer的进程,说明已经创建了独立的PK锁。查看相关的线程信息发现是在做类加载。排查了nmc,发现在master上有很多堵塞线程,都在做锁相关线程。开放相关PK锁服务的端口后,问题解决。
2024-08-23 18:48:38
207
原创 【案例56】安全设备导致请求被拦截
访问相关报表第二次访问发现有相关的连接问题服务器访问相关节点,发现相关节点无此问题。从客户的客户端访问缺有问题。在nclog中发现如下日志,链接被重置。直接访问服务器无丢包现象。客户端未开防火墙。装了杀毒软件已经卸载。问题稳定重现。怀疑防火墙或者安全防护设备拦截所致。客户起初不认可。经过与客户IT中心沟通,发现客户端到服务器端有硬件设备。XXX的防火墙。查看防火墙日志发现有大量的从客户端到服务器端的拦截。经过沟通,发现客户的NC相关的安全补丁都未使用安装导致的。1、临时需要开放相关的限制。
2024-08-23 18:29:17
472
hs-err-pidXXX.log 文件分析利器
2024-08-29
pdksh-5.2.14(32位和64位rpm)
2024-08-20
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人