
自然语言处理
文章平均质量分 80
冰阔落
Stay hungry, Stay foolish, Stop when you are perfect.
展开
-
怎么设计高效的敏感词过滤系统(一)
最近在做一个项目,寻遍了 Node 开源社区居然没有发现一个好用的敏感词过滤库,有那么几个库外观上看起来似乎还不错,用起来却一塌糊涂,震惊有余,失望至极。于是花了一天时间自己撸了一个库,库名叫 fastscan,这是我的第一个 Node 开源项目,它也可以用于浏览器环境。fastscan 基于广为人知的 ahocorasick 高性能字符串匹配算法。项目地址:https://github....转载 2020-02-24 14:07:29 · 7489 阅读 · 0 评论 -
基于布隆过滤器实现敏感词识别和过滤
在当前的网络环境下,敏感词过滤已经是各大网站的“标准配置”,如果不想被大量的垃圾信息充斥,除了使用机器人识别、验证码等验证工具,还需要阻止含有敏感词内容的发布,否则可能面临关站等风险,可谓是国内互联网的红线。布隆过滤器布隆过滤器(英语:Bloom Filter)是1970年由布隆提出的。它实际上是一个很长的二进制向量和一系列随机映射函数。布隆过滤器可以用于检索一个元素是否在一个集合中。它的...转载 2020-02-24 14:02:30 · 1861 阅读 · 0 评论 -
如何优雅地过滤敏感词
敏感词过滤功能在很多地方都会用到,理论上在Web应用中,只要涉及用户输入的地方,都需要进行文本校验,如:XSS校验、SQL注入检验、敏感词过滤等。今天着重讲讲如何优雅高效地实现敏感词过滤。敏感词过滤方案一先讲讲笔者在上家公司是如何实现敏感词过滤的。当时毕竟还年轻,所以使用的是最简单的过滤方案。简单来说就是对于要进行检测的文本,遍历所有敏感词,逐个检测输入的文本中是否含有指定的敏感词。这种方...转载 2020-02-24 13:53:45 · 2862 阅读 · 2 评论 -
gensim 文档-语料库与向量空间
如果你想要查看logging事件不要忘记设置。import logginglogging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)从字符到向量这次让我们从文档表征为字符开始:from gensim import corpora, models翻译 2017-09-07 14:50:10 · 1059 阅读 · 0 评论 -
基于 Gensim 的 Word2Vec 实践
Word2Vec基于 Gensim 的 Word2Vec 实践,从属于笔者的程序猿的数据科学与机器学习实战手册,代码参考gensim.ipynb。推荐前置阅读Python语法速览与机器学习开发环境搭建,Scikit-Learn 备忘录。Word2Vec TutorialGetting Started with Word2Vec and GloVe转载 2017-09-07 15:49:18 · 828 阅读 · 0 评论 -
simhash 文本相似度计算
常见文本相似度计算方法:1、 向量空间模型VSM(Vector Space Model)。使用VSM计算相似度,先对文本进行分词,然后建立文本向量,把相似度的计算转换成某种特征向量距离的计算,比如余弦角、欧式距离、Jaccard相似系数等。这种方法存在很大一个问题:需要对文本两两进行相似度比较,无法扩展到海量文本的处理。使用介绍可以参考 Corpora and Vector Spa转载 2017-09-07 16:18:14 · 3753 阅读 · 0 评论 -
利用信息熵提取文章关键词
目前,对于文章中提取关键词最常用的方法莫过于TF-IDF,但是这样提取出来的关键词并不一定准确。 举个最简单的例子来说,在新闻中最前面出现“记者李元芳报道”,分词后的结果是“记者、李元芳、报道”,对于这三个词,“记者”和“报道”的经常出现,idf值一般来说可能会很低,而“李元芳”这个刚出道不久名不见经传的无名小辈可能对google免疫,造成的结果是idf值极高。尽管“李元芳”在文章中仅出现转载 2018-01-22 15:22:29 · 921 阅读 · 0 评论 -
词性标注的标签对应含义
NumberTagDescription1.CCCoordinating conjunction 连词2.CDCardinal number 基数3.DTDeterminer 限定词4.EXExistential there5.FWForeign word6.INPreposition or subordinating conjunction 从属连词 7.JJAdjective 形...转载 2018-02-26 15:19:04 · 5539 阅读 · 2 评论 -
使用 Word Embedding 构造简洁有效的文本摘要系统
文本摘要是在信息泛滥的时代非常重要的工具,可以帮助用户快速判断文章内容主旨,并以此决定是否值得细看文章内容。本文介绍下我们在2014年底2015年初时,使用WordEmbedding思想来构造文本摘要的一些思路,其中包括一种异常简单的文本摘要实现思路,实验效果证明这种方法虽然简单,可能比传统的TFIDF方法还要简单,但是效果与比较复杂的方法是相当的。这里介绍我们做的其中两种方法,一种是非常简单的根...转载 2018-03-29 14:11:54 · 394 阅读 · 0 评论 -
海量短文本场景下的去重算法
最朴素的做法在大多数情况下,大量的重复文本一般不会是什么好事情,比如互相抄袭的新闻,群发的垃圾短信,铺天盖地的广告文案等,这些都会造成网络内容的同质化并加重数据库的存储负担,更糟糕的是降低了文本内容的质量。因此需要一种准确而高效率的文本去重算法。而最朴素的做法就是将所有文本进行两两比较,简单易理解,最符合人类的直觉,对于少量文本来说,实现起来也很方便,但是对于海量文本来说,这明显是行不通的,因...转载 2019-07-16 15:27:26 · 2281 阅读 · 2 评论 -
gensim 文档-主题与转换
如果你想要查看logging事件不要忘记设置。import logginglogging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)转化接口在前面的语料和向量空间的教程中,我们创建了一个文档语料,用向量流来表征。接下来,让我们发动 gensim使用那些翻译 2017-09-07 14:17:17 · 1285 阅读 · 0 评论 -
gensim 文档-相似性查询
如果你想要查看logging事件不要忘记设置。import logginglogging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)相似性接口在前面语料与向量空间的教程及主题和转换的教程中,我们涵盖了什么是在向量空间中创建一个语料库以及如何在不同的向量翻译 2017-09-07 13:50:35 · 1993 阅读 · 0 评论 -
我也说说中文分词(上:基于字符串匹配)
1. 序词是句子组成的基本单元,不像英语句子已经分好词了,中文处理的第一步就是中文分词。分词中面临的三大基本问题分词规范分词歧义未登录词的识别中文分词算法大概分为两大类第一类:基于字符串匹配 即扫描字符串,如果发现字符串的子串和词相同,就算匹配。这类分词通常会加入一些启发式规则,比如“正向/反向最大匹配”, “长词优先” 等策略。优点:速度快,都是O(n)转载 2017-08-15 10:02:26 · 3021 阅读 · 0 评论 -
Stanford NLP 安装与初步使用
1.如何使用CoreNLP工具通过Maven来使用后面两个dependency是导入model用的,支持的语言包括英语、汉语、法语、西班牙语和德语。默认情况下CoreNLP是支持英语的,其他语言的model需要独立下载。 edu.stanford.nlp stanford-corenlp 3.6.0 edu.stanford.nlp stan原创 2016-09-06 09:02:22 · 6605 阅读 · 1 评论 -
关于HTML(含HTML5)的块级元素和行级(内联)元素总结
转载:http://www.cnblogs.com/Bobo999/p/5783920.html1.首先我们要知道什么是块级元素和行级(内联)元素? 块级(block)元素的特点: ①总是在新行上开始; ②高度,行高以及外边距和内边距都可控制; ③宽度缺省是它的容器的100%,除非设定一个宽度; ④它可以容纳内联元素和其他块元素。 内联(i转载 2016-12-19 11:29:08 · 1412 阅读 · 0 评论 -
关键词抽取简介
转载:http://ling0322.info/2014/04/08/introduction-to-keyphrase-extraction.html关键词提取就是从文本里面把跟这篇文章意义最相关的一些词抽取出来。这个可以追溯到文献检索初期,当时还不支持全文搜索的时候,关键词就可以作为搜索这篇论文的词语。因此,目前依然可以在论文中看到关键词这一项。除了这些以外,关键词还可以在转载 2017-01-13 18:25:48 · 1149 阅读 · 0 评论 -
英文分词的算法和原理
转载:http://itindex.net/detail/48243-%E8%8B%B1%E6%96%87-%E5%88%86%E8%AF%8D-%E7%AE%97%E6%B3%95?utm_source=tuicool&utm_medium=referral根据文档相关性计算公式TF-IDF: http://lutaf.com/210.htmBM25: http://luta转载 2017-01-16 15:52:24 · 15025 阅读 · 0 评论 -
关键词抽取(keywords extraction)的相关研究
现有上线的关键词提取算法1. 语言特征+位置特征,如标题中的名词2. 对正文+标题的文本构造PAT,然后从中计算字符串的左右熵,互信息来抽取关键词参考论文《PAT-Tree-Based Keyword Extraction for Chinese Information Retrival》《Updateable PAT-Tree Approach to Chinese Key Ph转载 2017-01-17 10:16:15 · 2822 阅读 · 0 评论 -
TextRank 算法提取关键词的 Java 实现
http://www.hankcs.com/nlp/textrank-algorithm-to-extract-the-keywords-Java-implementation.html谈起自动摘要算法,常见的并且最易实现的当属TF-IDF,但是感觉TF-IDF效果一般,不如TextRank好。TextRank是在Google的PageRank算法启发下,针对文本里的句子设计的权重转载 2017-01-17 10:22:11 · 5760 阅读 · 0 评论 -
关键词抽取
作者:zhbzz2007 出处:http://www.cnblogs.com/zhbzz2007 欢迎转载,也请保留这段声明。谢谢!1 简介关键词抽取就是从文本里面把跟这篇文档意义最相关的一些词抽取出来。这个可以追溯到文献检索初期,当时还不支持全文搜索的时候,关键词就可以作为搜索这篇论文的词语。因此,目前依然可以在论文中看到关键词这一项。除了这些,关键词还可以在文本聚类、分类、自动摘要转载 2017-01-17 10:34:03 · 6984 阅读 · 0 评论 -
资讯抓取
爬虫网页的抓取利用 WebMagic 来爬取网页流程:编写爬取规则,让 WebMagic 按照此规则来爬取网页 优点:学习成本低,文档全,上手快 缺点:不能获取 Cookie最终方案方案:利用 WebMagic 来爬取网页 理由:WebMaic 简单易用,文档全 缺点:不能获取 Cookie 解决方案:先利用 HttpCilent 发送请求来获取 Cookie网页的渲染利用无界面浏览器进行原创 2016-09-06 09:06:39 · 1585 阅读 · 0 评论 -
python 实现全角半角的相互转换
缘起在自然语言处理过程中,全角、半角的的不一致会导致信息抽取不一致,因此需要统一。 转换说明全角半角转换说明有规律(不含空格):全角字符unicode编码从65281~65374 (十六进制 0xFF01 ~ 0xFF5E)半角字符unicode编码从33~126 (十六进制 0x21~ 0x7E)特例:空格比较特殊,全角为 12288(0x3000),转载 2017-08-15 09:28:59 · 1832 阅读 · 0 评论 -
TF-IDF 算法改进
概念 : TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。缺点:单纯以"词频"衡量一个词的重要性,不够全面,原创 2016-10-24 15:34:11 · 6228 阅读 · 3 评论