
自然语言处理
净心净意
这个作者很懒,什么都没留下…
展开
-
数学角度解析朴素贝叶斯算法
简介 朴素贝叶斯算法仍然是流行的十大挖掘算法之一,也是是文本分析领域最为常用的算法之一,该算法是有监督的学习算法,解决的是分类问题,如客户是否流失、是否值得投资、信用等级评定等多分类问题。该算法的优点在于简单易懂、学习效率高、在某些领域的分类问题中能够与决策树、神经网络相媲美。但由于该算法以自变量之间的独立(条件特征独立)性和连续变量的正态性假设为前提,就会导致算法精度在某种程度上受影响。 1. 预备数学知识 1.1 求极值问题 人工智能中札核心的数学环节是求出一个目标函数最小值或最大值。我们高中时学过的将原创 2020-07-03 08:31:45 · 323 阅读 · 0 评论 -
对svm的通俗解释
简介 这里引用李航老师《统计学习方法》里的介绍。 支持向量机(support vector machines, SVM)是一种二分类模型,它的基本模型是定义在特征空间上的间隔最大的线性分类器,间隔最大使它有别于感知机;SVM还包括核技巧,这使它成为实质上的非线性分类器。SVM的的学习策略就是间隔最大化,可形式化为一个求解凸二次规划的问题,也等价于正则化的合页损失函数的最小化问题。SVM的的学习算法就是求解凸二次规划的最优化算法。 SVM就是寻找可以区分两个类别并且能使边际(margin)最大的超平面(hyp原创 2020-07-03 00:21:09 · 1912 阅读 · 0 评论 -
语言模型的评估指标-Perplexity
前言 语言模型是什么呢? 标准定义:对于语言序列w1,w2,...,wnw_1,w_2,...,w_nw1,w2,...,wn,语言模型就是计算该序列的概率,即 P(w1,w2,...,wn)P(w_1, w_2,...,w_n)P(w1,w2,...,wn)。 通俗解释:判断一句话是不是我们正常说的话,即是不是人话。如P(我,打,篮球)>P(篮球,打,我)。 那么怎样评估语言模型好坏呢?这里介绍一个评估指标:perplexity(困惑度) 由于网上有很多对perplexity的解释,这里原创 2020-06-25 00:09:11 · 1970 阅读 · 0 评论 -
分类问题与回归问题
分类问题预测的是类别,模型输出是概率分布。 三分类问题输出例子:[0.1, 0.2, 0.7]。 回归问题输出的是值,模型的输出是一个实数值。原创 2020-06-17 07:36:41 · 641 阅读 · 0 评论 -
文本预处理技术
自然语言处理简介: 自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。 自然语言处理(NLP)=自然语言理解(NLU)+ 自然语言生成(NLG)。 这三者的关系如下图: 在NLP工程中,文本预处理通常包含以下几个步骤: 分词: 一、分词需要工具,以下是常用开源分词工具: Jieba分词 https://github.com/fxsjy/jieba SnowNLP http原创 2020-06-15 22:41:21 · 1795 阅读 · 0 评论