满腹的小不甘
这个作者很懒,什么都没留下…
展开
-
BERT 是如何分词的
BERT分词方式转载 2022-10-28 14:35:52 · 960 阅读 · 0 评论 -
fasttext
fastText原理和文本分类实战,看这一篇就够了_CHEONG_KG的博客-优快云博客_fasttext模型fastText原理篇一、fastText简介fastText是一个快速文本分类算法,与基于神经网络的分类算法相比有两大优点:1、fastText在保持高精度的情况下加快了训练速度和测试速度2、fastText不需要预训练好的词向量,fastText会自己训练词向量3、fastText两个重要的优化:Hierarchical Softmax、N-gram二、fastText模型架构...https原创 2022-03-17 11:01:09 · 347 阅读 · 0 评论 -
CRF++ 特征工程
Name Entity Recognition(命名实体识别) - 知乎特征除了人工的方式还可以用深度学习的方式提取可尝试的特征:1.Bag of word features--当前词:Colin--前后词:prefessor,proposed--bigram: Prefessor Colin,Colin proposed2.词性相关的--当前词:名词--前后词:名词,动词3.前缀 or 后缀当前词:Co,in前后词:pr,ed,or4.单词特点--词原创 2022-02-10 18:25:29 · 366 阅读 · 0 评论 -
jieba分词(python使用篇)(一)
地址:https://github.com/fxsjy/jieba特点支持四种分词模式: 精确模式:试图将句子最精确地切开,适合文本分析; 全模式:把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; 搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。 paddle模式:利用PaddlePaddle深度学习框架,训练序列标注(双向GRU)网络模型实现分词。同时支持词性标注。paddle模式使用需安装paddlepaddle-tiny原创 2020-09-08 09:22:23 · 1050 阅读 · 1 评论 -
NER数据增强、badcase处理、数据优化
如何修正NLP问题的bad case NLP.TM | 近期做NER的反思在NLP层面思考数据量不足(冷启动)的问题,数据增强其实是一个还不错的策略。调整词句顺序。短句用词维度,长句可以n-gram或者是句子级别的调换顺序。 对NER,可以把特定槽位里面的词替换为其他同类型的词,当然文本分类也可以这么做。(收益大) 总结规则模板,直接生成数据。(收益不小) 复制粘贴。(数据量少时收益不明显,数据量大以后有少量收益) 复制粘贴也是有技巧的,例如拿一些比较差的bad case的特色case生成纠原创 2021-07-16 17:47:54 · 2222 阅读 · 0 评论 -
jieba分词实现原理(C++版 + python篇)(二)
jieba分词_满腹的小不甘-优快云博客地址:https://github.com/fxsjy/jieba特点支持四种分词模式:精确模式:试图将句子最精确地切开,适合文本分析;全模式:把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。paddle模式:利用PaddlePaddle深度学习框架,训练序列标注(双向GRU)网络模型实现分词。同时支持词性标注。paddle模式使用需安装paddlepaddl原创 2021-12-06 20:51:54 · 932 阅读 · 0 评论 -
CRF++:一个 CRF 工具包
训练:CRF++: Yet Another CRF Tool KitCopyright(C) 2005 Taku Kudo, All rights reserved.reading training data: 100.. 200.. 300.. 400.. 500.. 600.. 700.. 800.. Done! 1.94 sNumber of sentences: 823Number of features: 1075862Number of thread(s): 1Fre原创 2021-06-15 12:44:35 · 684 阅读 · 0 评论 -
CRFsuite:CRF 工具包及sklearn-crfsuite
参考CRFsuite官网地址:CRFsuite:A fast implementation of Conditional Random Fields (CRFs) CRFsuite的Github地址为:https://github.com/chokkan/crfsuite CRFsuite官网教程:CRFsuite - Tutorial on Chunking Task sklearn-crfsuite:https://zhuanlan.zhihu.com/p/74408364...原创 2021-07-06 14:42:04 · 2911 阅读 · 0 评论