
NLP自然语言处理
文章平均质量分 64
NLP是人工智能的一个子领域。自然语言是人类智慧的结晶,自然语言处理是人工智能中最为困难的问题之一,而对自然语言处理的研究也是充满魅力和挑战的。本专栏将会结合实践讲解常见NLP算法原理,欢迎订阅!
优惠券已抵扣
余额抵扣
还需支付
¥99.90
¥299.90
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
AI算法攻城狮
互联网算法工程师,拥有扎实的理论基础和丰富的算法落地实践经验
展开
-
【深度好文】simhash文本去重流程
SimHash本身属于一种局部敏感hash,其主要思想是降维,将高维的特征向量映射成低维的特征向量,再通过比较两个特征向量的汉明距离(Hamming Distance)来确定文章之间的相似性。一般海明距离为3就代表两篇文章相同。原创 2024-02-27 12:02:16 · 316 阅读 · 0 评论 -
FastText:深度学习时代的轻量级文本分类利器
Facebook AI研究院于2016年提出了FastText算法,巧妙地结合了词袋模型与深度学习的优势,实现了高效、准确的文本分类。本文将围绕FastText算法,对其理论基础、工作原理、实现细节、优缺点、应用案例、与其他算法的对比以及未来发展趋势进行全面探讨。原创 2024-05-19 16:15:55 · 359 阅读 · 0 评论 -
NLP | 深入浅出word2vec
Word2Vec 是一种流行的无监督深度学习方法,用于学习语料库中单词的向量表示(也称为单词嵌入)。Word2Vec 的目标是将单词映射到高维空间,使语义相似的单词在该空间中彼此靠近。Word2Vec 在大量文本数据上进行训练,可用于各种 NLP 任务,例如文本分类、文本生成、机器翻译等。Word2Vec 有两个主要架构:连续词袋(CBOW)和跳字模型(skip-gram)。CBOW 预测给定上下文的目标单词,而 Skip-Gram 预测给定目标单词的上下文单词。Word2Vec有两种高效训练的方法:原创 2021-08-29 09:46:33 · 637 阅读 · 0 评论 -
Word2vec算法原理
word2vec 是 Google 于 2013 年开源推出的一个用于获取词向量(word vector)的工具包,它简单、高效,因此引起了很多人的关注。1.单词的向量化表示所谓的word vector,就是指将单词向量化,将某个单词用特定的向量来表示。将单词转化成对应的向量以后,就可以将其应用于各种机器学习的算法中去。一般来讲,词向量主要有两种形式,分别是稀疏向量和密集向量。所谓稀疏向量,又称为one-hot representation,就是用一个很长的向量来表示一个词,向量的长度为词典的原创 2021-08-01 15:06:09 · 388 阅读 · 0 评论 -
word2vec词向量模型
构建模型 word2vec(corpus_token, size=feature_size, min_count=min_count, window=window, sample=sample)参数说明:corpus_token已经进行切分的列表数据,数据格式是list of listsize表示的是特征向量的维度,即映射的维度min_count表示最小的计数词,如果小于这个数的词,将不进行统计window表示滑动窗口,表示滑动窗口的大小,用于构造训练集和测试集sample表示对出现原创 2021-05-01 09:59:21 · 1130 阅读 · 1 评论 -
Simhash在内容去重中的应用
simhash通过将文本转化为二进制签名,利用汉明距离来计算文本之间的相似度原创 2024-02-29 10:59:49 · 220 阅读 · 0 评论 -
fasttext.train_supervised参数详解
fasttext.train_supervised函数允许用户通过一系列参数来定制训练过程,这些参数包括但不限于学习率(lr)、维度(dim)、周期次数(epoch)、词形(wordNgrams)、最小计数(minCount)等。原创 2024-08-12 11:53:58 · 270 阅读 · 0 评论 -
Word2Vec.LineSentence详解
Word2Vec是一种用于学习词向量的模型,它通过无监督学习的方式,从大量的文本数据中学习到每个词的分布式表示,即词向量。类进行训练时,每个句子都被视为一个独立的训练样本,模型通过学习这些样本中的词语组合和上下文关系,最终生成每个词的向量表示。这种表示方法不仅提高了模型的训练效率,还能更好地捕捉到词语之间的语义关系,为后续的自然语言处理任务提供了有力的支持。通过使用这个类,研究人员和开发者可以更容易地将自己的数据集转换成模型训练所需的格式,从而加速词向量的学习和应用过程1。原创 2024-08-12 11:38:42 · 274 阅读 · 0 评论 -
结巴分词原理
具体来说,结巴分词的前缀词典和后缀词典分别包含了一些常用的前缀和后缀,例如“的”、“是”、“不”、“了”等等,这些前缀和后缀可以用来构建DAG图中的节点,对于每个节点,它的出度连接指向所有可能与该节点组合成词语的后缀节点,从而形成DAG(有向无环图)图。结巴分词是一种中文分词算法,采用基于词频和词汇概率的方法对文本进行切割,将连续的中文字符序列切分成有意义的词,“结”是“精准”的意思,“巴”是“速度”的意思,因此结巴分词也被称为“高性能的中文分词工具”。原创 2024-05-29 17:29:54 · 293 阅读 · 0 评论 -
FastText文本分类原理详解
fastText是一个快速文本分类算法,与基于神经网络的分类算法相比有两大优点:1、fastText在保持高精度的情况下加快了训练速度和测试速度2、fastText不需要预训练好的词向量,fastText会自己训练词向量3、fastText两个重要的优化:Hierarchical Softmax、N-gramfastText结合了自然语言处理和机器学习中最成功的理念。这些包括了使用词袋以及n-gram袋表征语句,还有使用子字(subword)信息,并通过隐藏表征在类别间共享信息。原创 2024-05-10 19:32:29 · 603 阅读 · 0 评论 -
MinHash&LSH
MinHash 是一种用于近似集合相似度计算的技术。它被广泛用于大规模数据集中的快速相似度估计,特别是在处理文本、图像和网络数据等领域。MinHash 的基本思想是通过将集合中的元素哈希成一个较小的签名(通常是一个固定长度的整数或比特串),从而快速地比较两个集合之间的相似度。原创 2024-05-07 20:11:53 · 463 阅读 · 0 评论 -
n-gram模型
N-gram是一种基于统计的语言模型,它基于一个假设,即一个词的出现仅与它前面的N-1个词有关,而与更远的词无关。N-gram模型通常用于自然语言处理(NLP)任务,如文本生成、文本分类、机器翻译、拼写检查和语音识别等。在N-gram模型中,文本被分解为一连串连续的词或字节片段,这些片段被称为grams。模型通过统计这些grams在训练语料库中的出现频率来估计下一个词出现的概率。原创 2024-04-24 20:58:03 · 233 阅读 · 0 评论 -
知乎创作分评估体系
创作分评估体系分为五个维度:创作活跃度、内容优质分、创作影响力、关注者亲密度及社区成就分,有助于用户了解近期的创作表现,每个维度的分值计算原理如下:原创 2024-04-12 16:54:23 · 423 阅读 · 0 评论 -
基于情感词典的情感分析方法
计算用户情绪强弱性,对于每一个文本都可以得到一个情感分值,以情感分值的正负性表示情感极性,大于0为积极情绪,小于0反之,绝对值越大情绪越强烈。3、 如果情感词前有否定词则将情感词的情感权值乘以-1,如果有程度副词就乘以程度副词的程度值;4、加和所有组的得分,积极情绪得分大于0、消极情绪得分小于0,绝对值越大情绪越强。2、判断每个情感词之前是否存在否定词及程度副词,将其与情感词分为文本中的一个组;1、对文本进行分词,找出文本中的情感词、否定词以及程度副词;原创 2023-10-25 16:28:18 · 702 阅读 · 0 评论 -
Python自然语言处理常用库——jieba库
开发者可以指定自定义词典,以便包含jieba词库里没有的词。虽然jieba有新词识别功能。但是自行添加新词可以保证更高的正确率。用法:jieba.load_userdict(file_name) #file_name为文件类对象或自定义词典的路径词典格式和dict.txt一样,一个词占一行;每一行分三部分:词语、词频(可省略)、词性(可省略),用空格隔开,顺序不可颠倒。filename若为路径或二级制方式打开的文件,则文件必须为UTF-8编码。词频省略时使用自动计算的能保证分出该词的词频。原创 2022-12-19 16:22:37 · 617 阅读 · 0 评论 -
NLP知识脉络图
NLP知识脉络图原创 2021-09-01 00:12:34 · 625 阅读 · 0 评论 -
NLP 结巴分词词性映射关系
NLP 结巴分词词性代码原创 2022-12-01 11:48:47 · 584 阅读 · 0 评论 -
BERT (基于Transformer的双向编码器)
BERT的工作原理是通过在大规模未标注数据上执行预训练任务(如Masked Language Model来捕获文本中词汇的双向上下文关系,以及Next Sentence Prediction来理解句子间的逻辑关系),再将预训练的模型针对特定任务进行Fine tuning,从而在各种自然语言处理任务中实现高性能。原创 2021-09-23 10:46:31 · 601 阅读 · 0 评论 -
NLP | TextRank算法介绍及实现
TextRank 是一种图形基础的自然语言处理(NLP)算法,用于摘要生成和关键词提取。它受网页搜索引擎使用的 PageRank 算法的启发,通过将文本文档作为图形,对文档内不同短语或句子的重要性进行排名。TextRank 对句子进行操作,首先将文本分解为一组句子。然后,这些句子被转换为图形结构,其中每个句子表示为一个节点,并且基于其内容的相似性形成节点之间的边。TextRank 算法然后将 PageRank 算法应用于此图形以确定每个句子的重要性并生成摘要。原创 2021-05-17 02:25:23 · 1292 阅读 · 0 评论 -
NLP | TextRank文章摘要提取算法流程
TextRank算法是一种抽取式的无监督的文本摘要方法。让我们看一下我们将遵循的TextRank算法的流程:1.第一步是把所有文章整合成文本数据2.接下来把文本分割成单个句子3.然后,我们将为每个句子找到向量表示(词向量)。4.计算句子向量间的相似性并存放在矩阵中5.然后将相似矩阵转换为以句子为节点、相似性得分为边的图结构,用于句子TextRank计算。6.最后,一定数量的排名最高的句子构成最后的摘要。...原创 2021-08-22 18:12:54 · 1247 阅读 · 0 评论 -
FuzzyWuzzy:简单易用的字符串模糊匹配工具
FuzzyWuzzy 是一个简单易用的模糊字符串匹配工具包。它依据Levenshtein Distance 算法计算两个序列之间的差异。Levenshtein Distance算法,又叫Edit Distance算法,是指两个字符串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。一般来说,编辑距离越小,两个串的相似度...原创 2019-08-15 20:20:41 · 1996 阅读 · 0 评论 -
NLP︱认识多种多样的2vec向量化模型
1、word2vec耳熟能详的NLP向量化模型。Paper:https://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdfJava:http://deeplearning4j.org/word2vecC++:https://github.com/jdeng/word2vecPython:https://radimre...原创 2021-06-27 08:43:54 · 501 阅读 · 0 评论 -
word2verctor原型NNLM神经网路语言模型
word2verctor原型是NNLM神经网路语言模型这个模型其实就是一个结构简单的神经网络,MLP模型。输入层,隐藏层(也许有两层,看个人设计),接softmax输出。它的作用是通过前 N-1 个词,推测出第 N 个词是什么。举个栗子,有一句话 “我今天中午吃的涮羊肉”。这个词要输出模型的话得把它先分词,分词成”我“, ”今天“,”中午“,”吃的“,”涮羊肉“。要做的事情就是通过”我“, ”今天“,”中午“,”吃的“这四个词,来推测”涮羊肉“这个词。怎么把这个场景建立模型呢。输入层.原创 2021-08-30 12:49:21 · 334 阅读 · 0 评论 -
NLP | TF-IDF词频-逆文件频率算法解析
一. 什么是TF-IDFTF-IDF(Term Frequency-Inverse Document Frequency, 词频-逆文件频率) 是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。上述引用总结就是, 一个词语在一篇文章中出现次数越多, 同时在所有文档中出现次数越少, 越能够代表该文章.这也就是TF-原创 2020-05-20 15:23:38 · 1925 阅读 · 0 评论 -
NLP自然语言处理中句子相似度计算
在做自然语言处理的过程中,现在智能对话比较火,例如智能客服,智能家电,智能音箱等,我们需要获取用户说话的意图,方便做出正确的回答,这里面就涉及到句子相似度计算的问题,那么本节就来了解一下怎么样来用 Python 实现句子相似度的计算。相似度方法编辑距离编辑距离,英文叫做 Edit Distance,又称 Levenshtein 距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作...原创 2019-12-03 21:37:32 · 2341 阅读 · 0 评论 -
NLP | 搜索文本的匹配算法
搜索即找到跟搜索词句很相似的文本,例如在百度中搜索"人的名",结果如下那么怎么评价两个文本之间的相似度呢?余弦相似度 (cosine similiarity)本文介绍基于VSM(Vector Space Model) 的余弦相似度算法来评价两个文本间的相识度。余弦相似度,又称为余弦相似性。通过计算两个向量的夹角余弦值来评估他们的相似度。两个空间向量之间的夹角越小,我们就认为这两个向量越吻合,cosθ 越大,当完全重合时 cosθ = 1由余弦定律可知:(原谅我百...原创 2020-07-17 18:26:13 · 4359 阅读 · 0 评论 -
NLP实战 | 使用《人民的名义》的小说原文训练一个word2vec模型
我们首先使用结巴进行分词,分词的结果放到另一个文件中,加入下面的一串人名是为了结巴分词能更准确的把人名分出来。原创 2021-08-01 22:04:10 · 1022 阅读 · 0 评论 -
NLP内容质量识别
一、标题低质图文格式混乱或不美观,音画质量差等影响阅读体验。包含但不限于以下场景:图文低质的内容,包含但不限于以下场景: 排版混乱:文章乱码、无段落或无标点; 语意不明:病句或错别字较多、乱码符号,有碍于读者理解内容; 逻辑混乱:内容拼凑或重复,前后内容没有衔接,无关内容占比较大; 音画低质的内容,包括但不限于以下场景: 视频缩放画面:视频中角标/logo/字幕被剪切,导致显示不全,或画面中人物面部被部分剪切; 视频添加边框:视频添加边框且占比较大,或水印遮挡画面严重,无法识别原创 2022-05-19 23:42:00 · 803 阅读 · 1 评论 -
使用中文维基百科语料库训练一个word2vec模型并使用说明
本篇主要介绍如何通过中文维基百科语料库来训练一个word2vec模型。相关资料下载:中文维基百科下载地址:https://dumps.wikimedia.org/zhwiki/WikiExtractor项目git地址:https://github.com/attardi/wikiextractorOpenCC项目git地址:https://github.com/BYVoid/Ope...原创 2019-12-04 11:02:59 · 2914 阅读 · 0 评论 -
NLP不良信息识别
不良信息包括但不限于:1. 标题党:使用夸张标题,内容与标题严重不符。2. 炒作负面话题:炒作绯闻、丑闻、劣迹等。3. 引战:制造事端或曲解原发内容本意,激化矛盾,引起不同群体相互攻击。4. 其他为获取流量和利益,侵害个人或单位合法权益的行为。宣扬仇恨是指用特定的生理、心理、地域、文化等属性区分出特定的人群加以标签化对立,并对此进行扩散传播,试图将对这一群体的排挤、贬低、歧视、攻击及伤害正当化、常规化的行为:1. 组织、煽动、引导不特定多数用户对具有以下类别的个体或群体的歧视、诽谤、侮辱、仇恨:原创 2022-06-08 21:29:31 · 993 阅读 · 1 评论 -
NLP时政有害信息的界定
1. 反对宪法确定的基本原则;2. 危害国家统一、主权和领土完整;3. 泄露国家秘密、危害国家安全或者损害国家荣誉和利益;4. 煽动民族仇恨、民族歧视,破坏民族团结,或者侵害民族风俗、习惯;5. 破坏国家宗教政策,宣扬邪教、迷信;6. 散布谣言,扰乱社会秩序,破坏社会稳定;7. 歪曲、丑化、亵渎、否定英雄烈士事迹和精神,侮辱、诽谤英雄烈士;8. 宣扬赌博、暴力、凶杀、恐怖或者教唆犯罪;9. 煽动非法集会、结社、游行、示威、聚众扰乱社会秩序;10. 突破社会道德底线、制度底线的负面信息;原创 2022-10-31 11:01:58 · 510 阅读 · 0 评论 -
NLP文章和视频违规声明原创案例集锦
同时以下情形不得声明原创,一经发现将取消文章原创标识,并且根据违规情况对其公众号予以相应处理。3、符合平台运营规范(如营销宣传内容及其他违法违规内容不在原创范围内)3、符合平台运营规范(如营销宣传内容及其他违法违规内容不在原创范围内)1、受著作权法保护(如公开性质内容不具备著作权,则不在原创范围内)1、受著作权法保护(如公开性质内容不具备著作权,则不在原创范围内)2、不得侵犯他人权益(如未经授权使用他人内容,则不在原创范围内)2、不得侵犯他人权益(如未经授权使用他人内容,则不在原创范围内)原创 2022-11-29 11:58:55 · 486 阅读 · 0 评论