是云猿实战

NLP学习日志

关注

文章平均质量分 66

关注数：文章数：5 文章阅读量：29610 文章收藏量：212

作者: 是云小糊糊

仰望星空，脚踏实地。

展开

专栏收录文章

【自然语言处理】非正常文本检测设计思想

我们整理了专业领域的停用词库，和关键词库，再结合常见的停用词，生僻字。对文本进行一次文本预处理，过滤停用词、保留关键词。如果剩余文本长度超过一定长度，则判断为正常文本，否则非正常文本。有些大佬，可以考虑正则校验吧。根据上面统计的信息，可以考虑一些阈值进行控制，这和你文本的使用场景有关。说实话，这个方案，我没实现成功，仅仅只是构思，缺少非正常文本数据，进行统计。比如用户输入一段信息文本，可能是随便输入的，也可能是认真输入的。第一种方案是，采用纯统计的方式处理的。能检测出来时非正常文本，就可以了。

原创 2021-02-23 10:26:39 · 156 阅读 · 2 评论
基于text2vec的中文文本相似度计算（解决简单对比问题）

文本相似度对比计算数据格式以及内容代码流程以及设计加载读取数据处理文本数据文本数据对比全部代码示例本文主要解决的问题是给定一个语料库，这里语料库记录对比的问题，然后用户输入文本，计算语料库中哪一条文本与用户输入最为相似。数据格式以及内容语料库主要用来做参考对比的基础数据，数据格式如下（base_content.csv）： ,key_text 0,我今天用了支付宝买了东西 1,我今天用了微信买了东西 2,今天上班遇到一个漂亮的女孩，她长的很好看。 3,今天上班遇到一个帅气的男孩，他长的很帅气。 4

原创 2020-05-11 18:06:13 · 13471 阅读 · 11 评论
bert学习资源整合-个人入门总结

一文读懂bert bert原理 self-attention：注意力机制 transformer：训练模型 multi-headed：多头机制堆叠机制 bert实操想简简单单读懂bert,不可能的，毒鸡汤在此，快放弃吧。放心读，读了你也不懂。懂了也不会用用了也不会有效果有效果也没有什么用！ ...

原创 2020-05-13 16:07:44 · 543 阅读 · 0 评论
python 基于LDA算法的长文本主题提取分类并预测类别

这一阶段主要是对你的问题本进行处理，清洗你的数据。中文文本预处理，主要包括去空格、去表单符号、去停用词、分词等。讲数据处理成下面数据格式即list套list的数据格式。lad模型代码以及处理数据代码。这里处理数据的核心代码text_deal.py，写在了同级目录（lda_demo）下面。本文主要是用来做文本主题提取，再根据这些主题对现有的文本进行分类。因为数据问题，效果一般，算法设计思路，仅供参考。Lda算法原理，知乎上有很完善的算法介绍，这里就不多废话了。最初数据如下所示，一条一条文本，换行符分割。

原创 2020-04-26 11:53:07 · 10428 阅读 · 7 评论
基于TF-IDF算法，来创建自己的词典库（文本预处理并结合关键词库）

TF-IDF自定义词典库的设计以及IDF的统计什么是TF-IDF？哎呀，能看到着偏个人日志，估计你早已明白tf-idf了吧。下面简单啰嗦一下凑字数。 tf：是指当前文本中出现这个单词的频次，在这个文本里面出现越多当然越重要啦。 idf：是指n个文本中有多少个文本出现过这个单词，越特殊越重要的，也就是出现在越少的文本中重要。 tf*idf构成了单词的权重，就我理解这还是比较科学的哈哈哈。思路流...

原创 2020-04-20 17:22:55 · 5012 阅读 · 0 评论