
NLP
文章平均质量分 92
Flyingzhan
哈尔滨工业大学18级计算机硕士研究生
展开
-
条件随机场CRF
条件随机场CRF1:介绍条件随机场(conditional random field,简称CRF),是一种判断模型,经常被用于part-of-speech tagging任务中,例如标注句子的词性,例如『苹果是好吃的』中苹果是名词,是是动词,好吃的是形容词等等。此外,由于分词任务也可以被看做是对句子进行tagging的任务,例如4tag(BMES)等,因此也可以使用CRF处理分词的任务。除了CRF,我们都知道HMM也可以用于这样的词性标注任务,jieba分词就是使用HMM预测未登录句子的BMES标签原创 2021-05-25 10:13:00 · 410 阅读 · 1 评论 -
jieba分词源码分析
jieba分词源码分析jieba分词是开源的中文分词库,里面包含了分词,核心词提取等功能,使用范围非常广。下面介绍一下jieba分词的源码,方便之后查找回忆。1:前缀词典基于词典的切词方法需要一个好的语料库,jieba分词的作者在这里https://github.com/fxsjy/jieba/issues/7描述了语料库来源,主要来源于人民日报的语料库。初始化时会根据原始语料库生成前缀词典,可以用来得到之后的词频数据等。@staticmethod def gen_pfdict(f原创 2021-02-25 15:13:13 · 1213 阅读 · 0 评论 -
中文分词
中文分词最近工作中碰到很多query分析的技术,包括query的分词,纠错,改写,同义词,权重等等常见的自然语言处理任务,在这里简单的记录一下这些任务的常见算法,持续更新。1:中文分词中文分词根据实现原理和特点,主要分为以下2个类别:1、基于词典分词算法也称字符串匹配分词算法。该算法是按照一定的策略将待匹配的字符串和一个已建立好的“充分大的”词典中的词进行匹配,若找到某个词条,则说明匹配成功,识别了该词。常见的基于词典的分词算法分为以下几种:正向最大匹配法、逆向最大匹配法和双向匹配分词法原创 2021-02-22 20:23:52 · 883 阅读 · 0 评论 -
从零开始NLP
从零开始NLP最近打算学习一下NLP,在这里记录一下看到的知识。1:N-gramn-gram是一种语言模型,作用就是为一句给定的单词的序列返回一个概率,表示这个序列出现的概率值。常见的有unigram,bigram,trigram等等。n个单词的句子出现的概率:unigram,假设单词之间相互独立,那么可以表示为:unigram是不可取的,因为‘i have a ...原创 2019-12-04 15:31:26 · 480 阅读 · 0 评论