
自然语言处理
文章平均质量分 51
Jaichg
这个作者很懒,什么都没留下…
展开
-
数据平滑 自然语言处理
问题提出:为了解决训练语料中的零概率问题。平滑处理的基本思想是一种“劫富济贫”,即提高低(零)概率,降低高概率,尽量使得概率分布趋于均匀。加一平滑方法假设每个二元语法出现的次数比实际出现的次数多一次,不妨将该处理方法称为加1法。p(wi|wI−1)=1+c(wi−1,wi)∑wi[1+c(wi−1,wi)]=1+c(wi−1,wi)|V|+∑wi[1+c(wi−1,wi)]p(...原创 2018-03-15 23:14:14 · 1493 阅读 · 0 评论 -
预备数学知识 自然语言处理
概率论最大似然估计如果s1,s2,...,sns1,s2,...,sn{s_1,s_2,...,s_n}是一个试验的样本空间,在相同情况下重复N次试验,观察到样本sksks_k的次数为nN(sk)nN(sk)n_N(s_k),那么sksks_k在这N次试验中相对频率为qN(sk)=nN(sk)NqN(sk)=nN(sk)Nq_N(s_k)=\frac{n_N(s_k)}{N}。当N越来...原创 2018-03-12 23:10:15 · 342 阅读 · 0 评论 -
RuntimeWarning -- 记EM算法踩的坑
在实现Baum_Welch算法过程中,能够训练小数据量参数,但是如果数据量增加时,多次迭代后会出现nan的数据。并且会报以下错误:RuntimeWarning: invalid value encountered in reduceRuntimeWarning: overflow encountered in true_divideRuntimeWarning: invalid val...原创 2018-04-12 16:58:55 · 3475 阅读 · 2 评论 -
CRF++ 使用小结
下载CRF++并编译./configure`make编译成功即可训练模型命令行使用CRF++:(这里有更详细的Tutorial) 训练模型 crf_learn template_file train_file model_file crf_learn参数 -a CRF-L2 or CRF-L1 规范化算法选择。默认是CRF-L2。 -c float 其中float关于...原创 2018-04-29 23:02:19 · 1735 阅读 · 0 评论 -
Python3 处理字符串中的空格
处理字符串首尾字符串 1. str.strip([char]) 删除字符串char字符 2. str.rstrip([char]) 删除字符串右边char字符 3. str.lstrip([char]) 删除字符串左边char字符 4. str.split(sep=None, maxsplit=-1) 切分字符串,maxsplit为-1时表示切分次数无限制 5. str.replace(...原创 2018-08-29 17:06:42 · 2215 阅读 · 0 评论