
NLP
文章平均质量分 74
小龙在山东
本博客为个人整理的技术笔记,仅用于学习。
展开
-
基于textrank4zh实现文本提取关键词、关键短语、摘要
TextRank算法可以用来从文本中提取关键词和摘要(重要的句子)。TextRank4ZH是针对中文文本的TextRank算法的python算法实现。原创 2024-03-08 18:20:07 · 1750 阅读 · 0 评论 -
基于textdistance计算文本相似度
textdistance是Python的第三方库,用于计算文本之间的相似度或距离。它提供了30+个算法,简单易用。原创 2024-03-08 19:45:00 · 488 阅读 · 0 评论 -
基于similarities的文本语义相似度计算和文本匹配搜索
similarities 实现了多种相似度计算、匹配搜索算法,支持文本、图像,python3开发。原创 2024-03-07 21:00:00 · 2450 阅读 · 0 评论 -
Gensim实现文本相似度/匹配/查重
Gensim是基于Python语言的自然语言处理库,用来主题建模、文本相似度等文本处理任务。Gensim的工作流程包括:分词、生成词典、向量化、模型训练等。原创 2024-03-07 19:00:00 · 733 阅读 · 0 评论 -
自然语言处理(NLP)资源总结
自然语言处理(NLP)资源总结原创 2017-04-11 16:42:49 · 1081 阅读 · 0 评论 -
jieba分词/载入词典/抽取关键词/标注词性
分词jieba.cut 方法接受三个输入参数: 需要分词的字符串;cut_all 参数用来控制是否采用全模式;HMM 参数用来控制是否使用 HMM 模型jieba.cut_for_search 方法接受两个参数:需要分词的字符串;是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意:不建议原创 2017-10-09 16:22:58 · 5427 阅读 · 0 评论 -
NLTK的安装/对象/词库/分词/词性标注/分块
安装pip install -U nltk安装NLTK数据import nltknltk.download()# 导入Brown Corpusfrom nltk.corpus import brownbrown.words()下载之后,如果找不到数据,需要设置NLTK_DATA为数据的目录。Text对象form nltk.book import *#打印出输入单词在文本中出现的上下文tex原创 2017-04-14 13:37:48 · 5791 阅读 · 0 评论 -
Java分词工具HanLP
HanLP是由一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用。不仅仅是分词,而是提供词法分析、句法分析、语义理解等完备的功能。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。HanLP完全开源,包括词典。不依赖其他jar,底层采用了一系列高速的数据结构,如双数组Trie树、DAWG、AhoCorasickDoubleArrayTrie等,这些基础原创 2017-04-18 17:41:02 · 2434 阅读 · 0 评论 -
用户评论挖掘
随着互联网的发展,越来越多的人选择在网上消费,并且越来越的证据表明商品的评论信息会影响到消费者的消费决定。评论挖掘的主要任务是从评论中了解到用户对产品的哪些功能、属性进行了怎样的评论,并抽取成简短有效的信息。评论挖掘主要有以下几个子任务:识别、抽取产品特征产品特征分为显示特征和隐含特征。 - 显示特征 显示特征是直接出现在产品的评论中,描述产品的性能或功能的名词或名词短语。隐含特征 隐含特征转载 2017-04-14 09:08:18 · 4103 阅读 · 0 评论 -
自然语言处理之Word2Vec
由于之前做过评论挖掘,所以涉及到了一些自然语言处理(NLP)的东西。最近google的一个开源的项目Word2Vec比较火,就去大概了解了一下。word2vec可以看做是一个将单词转换成向量形式的工具。那什么是词向量以及什么是语言模型呢?首先来说语言模型。语言模型是根据语言客观事实而进行的语言抽象数学建模,是一种对应关系。简单地说,语言模型就是用来计算一个句子的概率的模型。利用语言模型,可以确定哪个转载 2017-04-14 08:47:23 · 1568 阅读 · 0 评论