热点事件聚类思路以及实现-HanLP实现关键词提取

° 安如少年初如梦662

已于 2024-09-13 08:47:37 修改

阅读量1.4k

点赞数 31

文章标签：聚类数据挖掘机器学习 java

于 2024-09-12 18:12:13 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_59670390/article/details/142182377

版权

方案总结：

现在的工单热点关键词是调用大模型生成的

还借助大模型二次调用来把所生成的热点进行归类

创建一个，热点事件库即提取过后的工单热点

将这些热点扔给大模型给直接判断是不是一类。

或者就用算法生成向量，每次来新热点时，判断与老热点的相似度，若相似度在某某比例，则如高于80%，则归为一类，让数量加1，其余就新建一个热点即添加进数据库，如此重复，我觉得缺点是这个80%这个阈值不好确定。

数据聚类的大体实现过程：

查阅资料聚类大体过程应该就是,

1.数据预处理：利用各种方式将元数据可以是工单或者是,已经提取过的热点数据，经过一系列的处理方法（jieba分词，去除停用词等），生成可以初步使用的数据。

2.调用某种算法,查询相似或者频次最高的数据，中间还有各个词的权重等。如

词频（TF）= 某词在文章中出现的次数/文章的总次数

逆文章频率（IDF）=log（文章总数/（包含该词包含的文章数目加一））

特征权重（TF-IDF ）= 词频（TF）X 逆文章频率（IDF）

3.搜索机器学习中满足要求的算法. 经过此算法可以得到想要的结果，中间可以结合一些别的技术或者算法，如：搜索引擎技术、大数据分析能力以及机器学习平台，来进一步提升热点聚类的准确性和实时性

优化归类流程

为了优化工单热点关键词的归类流程，我们可以考虑以下几个步骤：

建立热点事件库：首先，创建一个热点事件库，用于存储已经提取和归类的热点事件。这个数据库应该能够记录热点事件的详细信息，包括关键词、相关联的工单、热点的起始和结束时间等。
热点向量化：利用大模型对每个热点事件生成向量表示。这可以通过将热点事件的描述输入到预训练的语言模型中，获取其向量输出来实现。向量化的目的是将文本数据转换为可以进行数学运算的格式，以便后续处理。
新热点相似度判断：对于每个新出现的热点事件，同样使用大模型生成向量，并与热点事件库中的向量进行相似度比较。这可以通过计算向量之间

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。