- 博客(9)
- 资源 (6)
- 问答 (1)
- 收藏
- 关注
原创 Day04 正则化
过拟合问题图一,欠拟合,算法具有高偏差。图三,过拟合,算法具有高方差。 代价函数 线性回归的正则化 Logistic回归的正则化 ...
2019-01-04 18:05:25
214
原创 Day03 Logistic回归
分类对于上面的数据集,线性回归算法似乎可用,对于下面的效果就很差劲了,所以不推荐将线性回归用于分类问题。 假设陈述假设函数表达式 决策界限 这个函数具体来说,就是给定x和参数θ时,y=1的估计概率。下图分界线称为决策边界,由参数决定 。 我们使用数据集确定参数,然后就可以完全确定决策边界。 代价函数下图左...
2019-01-03 18:50:54
177
原创 数学之美——谈谈分词
一般来讲,应用不同,汉语分词的颗粒度大小应该不同,因此不同的应用应有不同的分词系统。 中文分词的方法也被应用到英语处理,主要是手写体识别中。 分词的错误可以分为越界型错误和覆盖型错误。越界型错误:把“北京大学生”分为“北京大学-生”。覆盖型错误:把“贾里尼克”拆成四个字。 不断完善复合词的词典,是近年来中文分词工作的重点。...
2019-01-01 21:48:45
265
原创 数学之美——统计语言模型
贾里尼克的出发点很简单:一个句子是否合理,就要看它的可能性大小如何,至于可能性就用概率来衡量。 马尔可夫提出了一种偷懒但还颇为有效的方法,假设任意一个词Wi出现的概率只同它前面的词Wi-1有关,这种假设在数学上称为马尔可夫假设。 高阶语言模型,N-1阶马尔可夫假设等。 实际应用中最多的是N=3的三元模型,更高阶的很少使用。 模型的训练,零概率问题和平滑方法。 古德-图灵估计的原理:对于没...
2019-01-01 16:43:06
434
1
原创 数学之美——自然语言处理—从规则到统计
看书过程中记一些好玩的 上世纪七十年代,基于规则的句法分析(包括文法分析或者语义分析)很快走到了尽头,而对语义的处理则遇到了更大的麻烦,首先,自然语言中词的多义性很难用规则表达清楚,而严重依赖于上下文,甚至是“世界的知识”或者常识,1970年以后的统计语言学的出现使得自然语言处理重获新生,并取得非凡成就。 自然语言处理的应用在过去25年里发生了巨大的变化,比如对自动问答的需求很...
2019-01-01 16:21:15
760
1
原创 数学之美——文字和语言vs数字和信息
本章讲述了文字,数字和语言的历史,提到了一些概念和主题,包括通信的原理和信息传播模型 (信源)编码和最短编码 解码的规则,语法 聚类 校验位 双语对照文本,语料库和机器翻译 多义性和利用上下文消除歧义性...
2018-12-31 19:30:54
245
原创 Day02 多变量线性回归
多功能x表示一个向量我们用多个特征量或者变量来预测Y值,这就是所谓的多元线性回归 多元梯度下降法多元线性回归模型如下 特征缩放通过特征缩放,他们值得范围变得相近,这样你得到的梯度下降算法就会更快地收敛不要太大,也不要太小 特征缩放并不需要太精确,只是为了让梯度下降。以下为均值归一化工作。学习率这条曲线显示的是梯度下降的每步迭代后代...
2018-12-31 15:36:05
213
原创 Day01 单变量线性回归
参考Andrew Ng模型描述一个监督学习的例子。h是一个引导从x得到y的函数,该函数叫做假设函数。我们先从这个例子开始,先拟合线性函数,然后在此基础上,最终处理更复杂的模型,以及学习更复杂的学习算法,这种模型被称为线性回归,该例子是一个一元线性回归,也称为单变量线性回归。 代价函数代价函数的数学定义。代价函数也被称作平方误差函数,有时也被称为平方误差代...
2018-12-30 14:58:27
194
哈工大网络安全课程
2018-12-28
Git提交版本默认时间顺序
2017-10-06
TA创建的收藏夹 TA关注的收藏夹
TA关注的人