方案总结:
现在的工单热点关键词是调用大模型生成的
还借助大模型二次调用来把所生成的热点进行归类
创建一个,热点事件库即提取过后的工单热点
将这些热点扔给大模型给直接判断是不是一类。
或者就用算法生成向量,每次来新热点时,判断与老热点的相似度,若相似度在某某比例,则如高于80%,则归为一类,让数量加1,其余就新建一个热点即添加进数据库,如此重复,我觉得缺点是这个80%这个阈值不好确定。
数据聚类的大体实现过程:
查阅资料聚类大体过程应该就是,
1.数据预处理:利用各种方式将元数据可以是工单或者是,已经提取过的热点数据,经过一系列的处理方法(jieba分词,去除停用词等),生成可以初步使用的数据。
2.调用某种算法,查询相似或者频次最高的数据,中间还有各个词的权重等。如
词频(TF)= 某词在文章中出现的次数/文章的总次数
逆文章频率(IDF)=log(文章总数/(包含该词包含的文章数目加一))
特征权重(TF-IDF )= 词频(TF)X 逆文章频率(IDF)
3.搜索机器学习中满足要求的算法. 经过此算法可以得到想要的结果,中间可以结合一些别的技术或者算法,如:搜索引擎技术、大数据分析能力以及机器学习平台,来进一步提升热点聚类的准确性和实时性
优化归类流程
为了优化工单热点关键词的归类流程,我们可以考虑以下几个步骤:
- 建立热点事件库:首先,创建一个热点事件库,用于存储已经提取和归类的热点事件。这个数据库应该能够记录热点事件的详细信息,包括关键词、相关联的工单、热点的起始和结束时间等。
- 热点向量化:利用大模型对每个热点事件生成向量表示。这可以通过将热点事件的描述输入到预训练的语言模型中,获取其向量输出来实现。向量化的目的是将文本数据转换为可以进行数学运算的格式,以便后续处理。
- 新热点相似度判断:对于每个新出现的热点事件,同样使用大模型生成向量,并与热点事件库中的向量进行相似度比较。这可以通过计算向量之间