OneAPM 重磅登陆 CTDC 2018展示“ AIOps 双雄”创新实力

OneAPM在2018第二届CTDC首席技术官领袖峰会上展示了其最新的智能运维管理平台IntelligenceInsight和智能告警管理平台OneAlert。OneAPM创始人陈旭分享了人工智能在运维领域的应用前景,并介绍了OneAPM如何利用AI技术提高告警处理效率。

9月7日-8日,以“AI 智享未来”为主题的2018第二届 CTDC 首席技术官领袖峰会在乌镇盛大召开,大会由 CTOA 首席技术官领袖联盟、ITShare 主办,大会邀请了国内外顶级互联网、在线教育、金融、零售、电商、游戏 、互娱、生活服务等800余名企业技术领袖代表踊跃参与,现场座无虚席。

国内领先的智能运维管理服务商 OneAPM 携最新发布的智能运维管理平台 Intelligence Insight 和智能告警管理平台 OneAlert 受邀参加了本次峰会。OneAPM 创始人,CEO 陈旭先生在大会上带来了“AI 助力,智享运维”的主题演讲,就人工智能在运维领域的落地实践和众多技术精英进行了探讨。

OneAPM 重磅登陆 CTDC 2018展示“ AIOps 双雄”创新实力 OneAPM 新闻 第1张

陈旭首先介绍了 OneAPM 对整个运维行业现状的思索和对未来发展的一些看法。陈旭认为目前有超过80%的企业从建设阶段进入到了运维阶段,有超过50%的企业正在或即将开始利用云化、容器化、微服务化技术对IT架构进行重构。IT 运维的难度较以前提升了4到5倍,甚至更多。企业不得不利用更多的工具、更加复杂的规范和流程以及更多的人员来解决在运维过程中遇到的所有挑战。然而,工具的不给力,流程的不完善和人力有限,又使得“根因靠猜、流程靠掰、决策靠拍”。运维团队一次次的成为了背锅侠。陈旭表示:“人工智能给传统运维带来了巨大的契机,或将成为这个行业巨大的转折点。”

OneAPM 重磅登陆 CTDC 2018展示“ AIOps 双雄”创新实力 OneAPM 新闻 第2张

OneAPM 始终致力于让运维变得更轻松,不断探索如何将新的技术应用到运维领域。2015年的9月,OneAPM 上线了国内第一个纯 SaaS 的告警管理平台— OneAlert。截止今年8月累计用户超过3万3千家,接收事件超过68亿条,累计入库告警1.47亿条。3年的时间,OneAlert 已经建立了国内的最大的IT运维告警的专业语料库,数据模型规模超过 3GB。

数据和算法是人工智能落地的基础,2018年8月国内第一个运用 AI 技术的智能告警管理平台正式上线。这是多年告警专业数据积累和人工智能算法的一次完美结晶。在上线的短短几周时间里,OneAlert 已经累计入库告警128万条,合并进入场景的告警32万条,占四分之一,合并出告警场景数1万个。通过无监督场景模式,告警收敛率达到90%以上。打造了一个告警汇聚,告警降噪,告警聚类,告警分派,根因分析,知识复用的闭环智能告警管理平台。

OneAPM 重磅登陆 CTDC 2018展示“ AIOps 双雄”创新实力 OneAPM 新闻 第3张

OneAlert 智能告警管理平台将运维团队从海量的事件处理中解放出来。通过去重和无监督人工智能降噪,告警量减少85%。运用6种告警发送渠道和告警升级机制,确保告警送达率超过99%。通过有监督学习和历史场景分析,根源告警的定位时间缩短75%。平台的告警处置方案归档和场景相识度推荐能,将告警恢复时间 MTTR 缩短近50%。OneAlert 是如何做到这几点的,可以点击《产品经理说| AIOps 让告警变得更智能》了解详细信息。

最后,陈旭还介绍了 OneAPM 全新研发的 Intelligence Insight 智能运维管理平台,这将是一款颠覆传统运维的全新产品。感兴趣的朋友请点击《AIOps 一场颠覆传统运维的盛筵》

OneAPM 重磅登陆 CTDC 2018展示“ AIOps 双雄”创新实力 OneAPM 新闻 第4张

陈旭先生此次所带来的精彩演讲获得了在场嘉宾的阵阵掌声,让中国基础软件产业界看到了一个不断探索进取的创新者形象,以及运维技术发展的更多可能,更美好未来。

来源:http://blog.oneapm.com/news/825.html

<think>嗯,用户问的是关于HDFS日志分析的问题,具体是使用`hdfs dfs -cat`命令查看某个路径下的日志文件,然后用`less`分页查看。我需要先理解这个命令的作用以及用户可能的需求。 首先,用户可能是在调试或排查一个应用程序的问题,所以需要查看特定应用的日志。路径中的`application_1738374188804_123797`看起来像是YARN的Application ID,说明这个日志可能来自YARN应用,比如MapReduce作业或Spark任务。用户可能遇到了作业失败、性能问题或其他错误,需要从日志中获取信息。 接下来,用户想知道这个日志里有什么有用信息。根据之前的回答,用户已经得到关于HDFS日志分析的五个关键点,但这次是具体的日志文件。我需要考虑YARN应用的日志结构,通常包括container日志,里面会有stdout、stderr和syslog等文件。不过用户直接查看的是HDFS上的日志路径,可能包含应用的日志聚合内容。 需要确定用户可能关心的信息点,比如作业执行状态、错误堆栈、资源使用情况、任务失败原因等。同时,用户可能不太清楚这些日志的具体结构,需要解释不同的日志文件(如syslog、stdout、stderr)各自的作用,以及如何从中提取有用信息。 另外,用户可能对如何高效查看日志不太熟悉,比如使用`less`进行分页,或者使用`grep`过滤特定错误。可能需要建议一些常用的命令和技巧,帮助用户快速定位问题。 还要考虑到用户身份可能是开发或运维人员,需要技术细节,但也要避免过于专业的术语,保持解释清晰易懂。同时,用户可能希望了解日志中的关键错误模式,比如OOM(内存溢出)、任务重试、节点通信问题等,这些都是常见的问题点。 最后,需要确保回答结构清晰,分点列出,并提供实际例子,比如具体的日志片段和对应的解释,这样用户能直观理解如何应用这些信息。同时,提醒用户结合其他日志(如ResourceManager或NodeManager日志)进行交叉验证,以全面诊断问题。</think>在通过`hdfs dfs -cat`查看YARN应用日志时,该路径下的日志通常包含以下关键信息(按优先级排序): $$\text{日志路径结构:hdfs://nameservice1/tmp/logs/[user]/logs/[application_id]/[nodename]_[port]}$$ --- ### **1. 作业执行状态** - **AM/Container生命周期** 通过`application_1738374188804_123797`中的`AM`(ApplicationMaster)日志可观测: $$ \text{Application state: [SUCCEEDED/FAILED/KILLED]} $$ $$ \text{FinalStatus: [UNDEFINED/FAILED/SUCCEEDED]} $$ - 若出现`Application killed by user`则需检查手动终止操作 --- ### **2. 任务失败根本原因** - **错误堆栈定位** 在`syslog`中搜索`ERROR`或`Exception`关键词: ```log ERROR [AsyncDispatcher] org.apache.hadoop.mapreduce.v2.app.job.impl.TaskAttemptImpl: Error from container_1738374188804_123797_01_000002: java.lang.OutOfMemoryError: Java heap space ``` - 典型错误:`OOM`、`IOException`、`SocketTimeoutException` - **Shuffle阶段异常** ```log WARN [ShuffleConsumerPlugin] Failed to connect to [IP]:8042 Retrying connect to server: [IP]/[IP]:8042 ``` --- ### **3. 资源使用详情** - **内存/CPU分配情况** 在`container-launch-script.log`中查看实际资源消耗: ```log ulimit -c: unlimited /bin/bash -c ... -Xmx2048m ... ``` - 对比YARN分配的`vcores`和`memory`(如`yarn.scheduler.maximum-allocation-mb`) - **GC超负荷告警** ```log [GC (Allocation Failure) [PSYoungGen: 614400K->51200K(614400K)] 耗时 3.7s, 触发Full GC ``` --- ### **4. 数据读写瓶颈** - **HDFS操作延迟** 在`stdout`日志中搜索`FileSystem`操作: ```log INFO [Reducer] FileSystem: hdfs://nameservice1 write latency 1200ms ``` - 高频出现`Slow ReadProcessor`需检查DataNode磁盘健康状态 - **块定位重试** ```log WARN [RetryInvocationHandler] Exception while invoking getBlockLocations Retrying connect to namenode: [namenode_host]:8020 ``` --- ### **5. 任务重试与推测执行** - **TaskAttempt失败统计** 在`attempt_`前缀的日志中观测重试次数: ```log TaskAttempt: attempt_1738374188804_123797_m_000003_0 failed 3 times ``` - 若多个TaskAttempt均失败,可能存在数据倾斜或代码缺陷 - **推测执行触发条件** ```log INFO [Speculator] Launching speculative attempt for task_1738374188804_123797_m_000005 ``` --- ### **实战排查步骤建议**: 1. **快速定位错误** ```bash hdfs dfs -cat [path]/*syslog* | grep -A 20 -B 5 "ERROR\|Exception" ``` 2. **资源消耗分析** ```bash hdfs dfs -cat [path]/*stdout* | grep "HeapMemoryUsage\|vcores" ``` 3. **跨节点日志对比** ```bash hdfs dfs -ls [path] | awk '{print $8}' | xargs -I {} hdfs dfs -cat {} | less ``` **注意**:若需完整诊断,需结合ResourceManager日志(`yarn logs -applicationId application_1738374188804_123797`)交叉验证资源调度问题。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值