
Natural Language Processing
qq280929090
这个作者很懒,什么都没留下…
展开
-
情感分析资源大全(语料、词典、词嵌入、代码)
该博客收集情感分析领域中一些语料、词典等。1 语料库1.1 谭松波-酒店评论语料-UTF-8,10000条 现在网上大部分谭松波老师的评论语料资源的编码方式都是gb2312,本资源除了原始编码格式,还具有UTF-8编码格式。 本资源还包含将所有语料分成pos.txt和neg.txt两个文件,每个文件中的一行代表原始数据的一个txt文件,即一篇评论。 下载地址为:谭...原创 2017-04-27 09:15:32 · 68364 阅读 · 12 评论 -
经典的文本数据预处理流程(转)
首先对文本进行分词,因为可以直接用NLTK的分词器,中文的可以用结巴分词在英文中,往往还需要对单词进行词干提取和词形归一化。在词形归一的过程中如果结合POS Tag可以更好的进行词形归一。去除停用词,得到最终的词列表本文转自:https://blog.youkuaiyun.com/yc1203968305/article/details/79062182...转载 2018-06-25 14:48:07 · 892 阅读 · 0 评论 -
文本挖掘预处理的流程总结(转)
最近半年一直忙于项目,博客也很少更新咯。有几个项目做了不少JS相关的工作,基本都可以利用现成的开源方案,诸如angularJs、requireJs、bootstrap、knockoutJs、TypeScript、Jquery等等;之后也有项目是无UI的,纯后端的内容,主要就是考虑并行、性能、模块化等;之后的很长一段时间便主要在处理文本挖掘相关的项目(英文项目)。今天正好有空也准备对文本挖掘预处理的...转载 2018-06-25 14:40:07 · 778 阅读 · 0 评论 -
文本分类的数据预处理流程介绍
在进行文本分类时,毫无疑问会涉及到对文本数据进行预处理,包括文档切分、文本分词、去停用词(包括标点、数字、单字和其它一些无意义的词)、文本特征提取、词频统计、文本向量化等操作。下面就这几方面作一个概括性的介绍,具体的实现还有待慢慢的研究。 文档切分 文档切分这个操作是可选的,取决于你获取到的文档集合的形式。如果你得到的文档集合本身就是一篇一篇文章分开的,那么这一步就可以省略了。反之,如...转载 2018-06-25 13:01:07 · 4321 阅读 · 0 评论 -
英文文本挖掘预处理流程总结(转)
特点 英文文本的预处理方法和中文的有部分区别。首先,英文文本挖掘预处理一般可以不做分词(特殊需求除外),而中文预处理分词是必不可少的一步。第二点,大部分英文文本都是uft-8的编码,这样在大多数时候处理的时候不用考虑编码转换的问题,而中文文本处理必须要处理unicode的编码问题。这两部分我们在中文文本挖掘预处理里已经讲了。 而英文文本的预处理也有自己特殊的地方,第三点就是拼写问题,很...转载 2018-06-25 12:54:05 · 970 阅读 · 0 评论 -
中文文本挖掘预处理流程总结(转)
在对文本做数据分析时,我们一大半的时间都会花在文本预处理上,而中文和英文的预处理流程稍有不同,本文就对中文文本挖掘的预处理流程做一个总结。中文文本挖掘预处理特点 中文文本挖掘预处理和英文文本挖掘预处理相比的一些特殊点。 第一,中文文本是没有像英文的单词空格那样隔开的,因此不能直接像英文一样可以直接用最简单的空格和标点符号完成分词。所以一般我们需要用分词算法来完成分词,在文本...转载 2018-06-24 16:44:57 · 534 阅读 · 0 评论 -
【自然语言处理】英文开源工具汇总()
本博客主要是对网络上的一些关于英文自然语言处理开源工具的博客进行整理、汇总,如果有涉及到您的知识产权等,请联系本人已进行修改,也欢迎广大读者进行指正以及补充。本博客将尽量从工具的使用语言、功能等方面进行汇总介绍。1 斯坦福大学语言:Java功能:分词、词性标注、命名实体识别、语法解析、分类。介绍:Stanford NLP Group是斯坦福大学自然语言处理的团队,开发了多个NLP工具,官网网址。由...原创 2018-03-24 10:17:06 · 1416 阅读 · 0 评论 -
【自然语言处理】中文开源工具汇总(7种)
本博客主要是对网络上的一些关于中文自然语言处理开源工具的博客进行整理、汇总,如果有涉及到您的知识产品等,请联系本人已进行修改,也欢迎广大读者进行指正以及补充。本博客将尽量从工具的使用语言、功能等方面进行汇总介绍。1 IKAnalyzer语言:Java功能:支持细粒度和智能分词两种切分模式;支持英文字母、数字、中文词汇等分词处理,兼容韩文、日文字符;支持用户自定义的词典,通过配置IKAnalyzer...原创 2018-03-24 09:35:10 · 7902 阅读 · 0 评论 -
【自然语言处理】标注体系:IO, BIO, BMEWO, and BMEWO+
IO EncodingThe simplest encoding is the IO encoding, which tags each token as either being in (I_X) a particular type of named entity type X or in no entity (O). This encoding is defective in that it ...原创 2018-01-09 12:45:51 · 8732 阅读 · 0 评论 -
【自然语言处理】词性标记代码及其含义
以下为各个词性的含义 1. CC Coordinating conjunction 连接词2. CD Cardinal number 基数词3. DT Determiner 限定词(如this,that,these,those,such,不定限定词:no,some,any,each,every,enough,either,nei...原创 2017-04-13 21:04:45 · 2572 阅读 · 0 评论