NLP
文章平均质量分 86
自然语言处理
天下无敌笨笨熊
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
torch使用心得
训练周期(epoch)下有多个训练步骤(step)。原创 2025-02-17 19:50:59 · 835 阅读 · 0 评论 -
HanLP分词原理剖析
hanlp是一套中文的NLP处理库,里面提供了分词、拼音、摘要等很多实用功能,本文我们只看分词能力。原创 2023-05-09 16:25:25 · 2311 阅读 · 0 评论 -
NLP技术应用
其中:t为词,tf(t)为词频;d为文档,idf(d, t)为逆文档频率。N为文档总数,df(d, t)为包含词t的文档数。可见,词t在文档里出现的越少,idf值越大,该词的影响力就越大。+1主要是确保那些在所有文档里出现的词(显然,此时df(d, t)=N,所以log [ N / df(d, t) ] = 0)不会完全被忽略。为避免除数为0,sklearn的tf-idf向量化默认会做idf平滑。原创 2023-05-10 09:54:43 · 655 阅读 · 0 评论 -
结巴分词原理分析
结巴分词是一款python写成的开源中文分词器,分词过程大致如下:首先,结巴使用正则表达式将输入文本切割成若干中文块,接着对每个中文块B做处理,将B转成有向无环图(DAG)。DAG是以的字典结构存储,其中key是词在block中的起始位置,list存放的是block中以位置key开始的可能词语的结束位置。这里所谓的可能词语指的是词典里有的词,基本上所有的中文分词器都离不开词典。亦即:特、性、开、通、特性、开通这6个词在词典里都存在。全模式和精准模式。全模式只是简单的遍历DAG(所以。原创 2023-05-06 16:57:04 · 1156 阅读 · 0 评论
分享