- 博客(15)
- 收藏
- 关注
原创 概率语言模型 Probabilistic Language Modeling (三) --- 训练工具汇总
This is the Kyoto Language Modeling toolkit (Kylm), a la
2016-03-31 15:28:31
3473
原创 概率语言模型 Probabilistic Language Modeling (二) --- 模型估计算法介绍
1. 缘由–数据稀疏问题假设kk泛指某一事件,N(k)N(k)表示事件kk观察到的频数,极大似然法使用相对频数作为对事件kk的概率估计为p(k)=N(k)Np(k)=\frac{N(k)}{N},在语言模型中,训练语料中大量的事件N(k)=0N(k)=0,这显然没有反映真实情况,这种零值的概率估计会导致语言模型算法的失败。
2016-02-28 23:05:03
3361
原创 概率语言模型 Probabilistic Language Modeling (一) --- 整体简介
1. Introduction语言模型的目标就是compute the probability of a sentence or sequence of words
2016-02-24 15:12:51
2340
原创 range 和 xrange
range 函数说明:range([start,] stop[, step]),根据start与stop指定的范围以及step设定的步长,生成一个序列。range示例: >>> range(5) [0, 1, 2, 3, 4] >>> range(1,5) [1, 2, 3, 4] >>> range(0,6,2)[0, 2, 4]xrange 函数说明
2015-12-18 22:05:22
396
原创 Ubuntu 12.04.5 下安装SRILM1.7.1
Ubuntu 12.04.5 下安装SRILM1.7.1在Linux下安装TCL/TK,可以有编译源代码的方式安装,也可以有直接通过二进制压缩包进行解压缩安装,src下载http://www.tcl.tk/software/tcltk/可以参考这个地方:http://www.tcl.tk/doc/howto/compile.htmlCompiling Tcl on UNIX has two
2015-12-16 11:21:11
1911
原创 python知识点(三):复制(引用、拷贝、浅拷贝和深拷贝)
在平时项目中,我们经常需要对变量或者数组进行复制操作,python内部对于复制操作有着自己一套规定,很多情况下容易发生错误使用的情况。以下对复制操作的一个总结。1) 引用和拷贝(references and copies)当程序中使用赋值操作符=时,对于不可变对象(If the value cannot be modified, the object is said to be i
2015-04-03 15:24:59
505
原创 python知识点(二):replace和re.sub运行效率比较
项目中需要替换字符串,起初使用万能的re.sub,但是在大数据量情况下发现运行速度很慢。两种方法的原型:str.replace(old, new[, max])old -- 将被替换的子字符串。new -- 新字符串,用于替换old子字符串。max -- 可选字符串, 替换不超过 max 次re.sub(pattern, repl, string, count=0,
2015-02-15 11:26:35
7819
原创 Python编解码小结(二)——Python的编解码
本章将继续围绕如何在python下进行编解码问题进行讨论。(一)源代码文件(Source Code Files)的编码关于Python对代码文件的编码处理,Python官网上的Defining Python Source Code Encodings章节有详细描述(https://www.python.org/dev/peps/pep-0263/),现摘录如下python缺省认
2015-02-10 17:56:09
1021
原创 Python编解码小结(一)—— Unicode的来龙去脉
历史:上世纪80年代,大部分电脑使用8bit地址存储。8bit空间(即byte)可以存储0到255的数值。ASCII码选择单字节(0-127)数值作为其标准编码区间(即前127个数字来做字符映射), 而剩下的128-255数值变成各团体、组织自定义分配。注:ASCII标准本身就规定了字符和字符编码方式,ASCII既是字符集又是编码方案。随着字符数量需求不断增加,Unicode被提上来了
2015-02-09 17:09:53
625
原创 利用Opencv 3.0源码 + Visual Studio 2013 在window7环境下编译lib及dll
本文主要参照opencv官网中的介绍说明文档,下载源代码对opencv进行编译lib和dll。原文链接 http://docs.opencv.org/doc/tutorials/introduction/windows_install/windows_install.html#windows-installation一)准备环境1> 安装tortoisegit 下载地址https:/
2015-02-02 21:43:54
1048
原创 Python “编辑距离”(Levenshtein distance)函数的比较
本文搜集了网上比较常用的几种计算Levenshtein distance的函数,其中函数(1)为调用数学工具包Numpy, 函数(2)和(1)算法类似,都是采用DP, (3)来自wiki(4)是直接调用python的第三方库Levenshtein源码和结果如下:import timefrom functools import wrapsimport cProfileimp
2015-01-28 18:23:56
15769
原创 python知识点(一):python检测代码效率常用方法
工作中对大数据需要进行处理,发现某个2重循环运行效率很低,搜集试验了2种比较简单方便检测代码效率的方法如下1)装饰器来测量函数的执行时间2)利用库函数cProfile样例如下:import timefrom functools import wrapsimport cProfiledef fn_timer(function): @wraps(func
2015-01-28 16:35:32
779
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人