
NLP
文章平均质量分 94
一缕阳光lyz
这个作者很懒,什么都没留下…
展开
-
从大量文本中挖掘‘典型意见‘-基于DBSCAN的文本聚类实战
文本聚类,是一个无监督学习里面非常重要的课题,无论是在风控还是在其他业务中,通过对大规模文本数据的分析,找出里面的聚集观点,有助于发现新的问题或者重点问题。原创 2024-06-14 15:39:15 · 1172 阅读 · 0 评论 -
风控中的文本相似方法之余弦定理
从而两个向量之间的角度的余弦值确定两个向量是否大致指向相同的方向。结果是与向量的长度无关的,仅仅与向量的指向方向相关。余弦相似度通常用于正空间,因此给出的值为-1到1之间。原创 2024-06-13 18:45:49 · 1076 阅读 · 0 评论 -
风控场景下文本分类-实战
本系列主要介绍了风控场景下文本分类的基本方法,对抗文本变异,包括传统的词袋模型、循环神经网络,也有常用于计算机视觉任务的卷积神经网络,以及 RNN + CNN,试验完一遍,基本能搞定大部分的文本分类以及文本变异对抗问题。算是个保姆级的入门教程。原创 2024-06-06 10:51:23 · 1122 阅读 · 0 评论 -
NLP(1)-TF-IDF算法介绍
一、TF-IDF算法介绍TF-IDF(term frequency–inverse document frequency,词频-逆向文件频率)是一种用于信息检索(information retrieval)与文本挖掘(text mining)的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。主要思想是:如果某个单词在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。原创 2024-06-05 11:00:06 · 1075 阅读 · 0 评论