基于自然语义分析的大纲近似度分析

本文探讨了使用TFIDF算法解决设备维修大纲一致性比对的难题,通过关键词提取和相似度计算,有效减少了80%的手动比对工作,但仍存在20%的误差,需进一步优化。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

工作中遇到这样一种困惑,需要从几个基地的硕大无比的excel文件中比对对某个设备的维修大纲是否一致。比如有的基地要求“在50%FP平台下修改Gk参数”,而有的基地同一件事情的描述是“修改Gk参数(50%FP)”。用vlookup不太能解决这种问题。

如果完全手工操作,就只能先用基地1的描述作为基础,从中提取关键词,在基地2/3/4/5的excel里面搜索,找到了就复制过来(包括周期、负责单位等一些列信息);然后换基地2作为基础,重复上述操作。

显然,最麻烦的就是提取关键词去找和复制粘贴工作,如果excel有几百上千条的话手都要抽经了。

于是乎研究了下语义识别,使用TFIDF算法可以比较有效的解决这个问题。

https://blog.youkuaiyun.com/ling620/article/details/95956211

https://blog.youkuaiyun.com/qq_42988748/article/details/82657562?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.nonecase&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.nonecase

https://blog.youkuaiyun.com/Yellow_python/article/details/81021142

感谢这三篇博客的介绍,以及其他博客对TFIDF算法的介绍,使用Python gensim包里自带的TFIDF算法模块,逐条遍历每个大纲长描述在其他基地里最接近的长描述。经尝试可以减少8成的RPN系统大纲的比对。但是还有2成算出来最接近的大纲是错的。因此还需要手动比对。

同时自然的看到LDA算法,想到用LDA算法分析不同的异常事件通知单,看能否自动分类。目前的效果很糟糕。可能无监督学习搞分类还是比较困难的,需要原始数据真的区别够大。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值