- 博客(52)
- 收藏
- 关注
原创 log-anomaly-detector (LAD)
log-anomaly-detector (LAD)LAD是一个基于机器学习的Log日志异常检测命令行工具文章目录log-anomaly-detector (LAD)使用方式1. 安装2. 示例CommandUI Command:3. 结构4. Machine Learning CoreLanguage Encoding, Word2VecSOM模型结构5.MetricsFact Store ...
2019-12-10 11:50:35
1566
原创 Git 多平台换行符问题(LF or CRLF)
https://kuanghy.github.io/2017/03/19/git-lf-or-crlf
2019-05-29 09:51:48
355
原创 python全角转半角(replace full-width characters with half-width characters)
转自 https://stackoverflow.com/questions/2422177/python-how-can-i-replace-full-width-characters-with-half-width-charactersimport unicodedatafoo = u'1234567890'unicodedata.normalize('NFKC', foo)u’12...
2019-05-20 15:05:17
773
原创 NLP相关竞赛
NLP相关竞赛列举了一些NLP相关的评测和比赛,欢迎补充文章目录NLP相关竞赛会议NLPCC ( Natural Language Processing & Chinese Computing) 2012NLPCC 2013NLPCC 2014NLPCC 2015NLPCC 2016NLPCC 2017NLPCC 2018SIGHAN (Special Interest Group f...
2019-01-19 18:21:18
25347
2
原创 基于kaldi和CVTE开源模型的中文识别
基于kaldi和CVTE开源模型的中文识别1.kaldi安装环境要求:ubuntu16.041.kaldi安装kaldi项目现在托管在github上 ,需要使用git命令将其下载到本地在终端键入:git clone https://github.com/kaldi-asr/kaldi.git kaldi-trunk编译kaldi源码在终端键入 cd kaldi-trunk/tool...
2019-01-07 16:46:36
8419
6
原创 指代消解评价指标(共指消解评测算法)
共指消解的评价方法和算法非常重要,它不但可以给出不同系统之间性能优劣的指标,同时能为进一步提高系统性能指明方向。一个好的用于评价共指消解性能的标准应该具备两点一是辨别能力二是解释能力。前者是指能够判断出系统共指关系消解处理好坏的能力后者是指具备对评价结果合理直观解释的能力。MUC评测算法MUC-6算法是一种基于链(link-based)的评价标准算法,曾广泛用于MUC会议的指代消解任务。算法定...
2018-11-06 19:02:23
2668
2
原创 指代消解笔记
基础原理:共指消解技术主要用于解决多个指称对应同一实体对象的问题。在一次会话中,多个指称可能指向的是同一实体对象。利用共指消解技术,可以将这些指称项关联(合并)到正确的实体对象,由于该问题在信息检索和自然语言处理等领域具有特殊的重要性,吸引了大量的研究努力。共指消解还有一些其他的名字,比如对象对齐、实体匹配和实体同义。共指消解问题的早期研究成果主要来自自然语言处理领域,近年来统计机器学习领域的...
2018-10-25 14:24:18
13214
15
转载 tf.matrix_band_part(input,num_lower,num_upper,name=None)
tf.matrix_band_part(input,num_lower,num_upper,name=None)功能:复制一个矩阵,并将规定带之外的元素置为0。 假设元素坐标为(m,n),则in_band(m, n) = (num_lower < 0 || (m-n) <= num_lower)) && ...
2018-10-25 13:56:47
1172
1
转载 tf.matrix_set_diag()
tf.matrix_set_diag(input,diagonal,name=None) 功能:将输入矩阵的对角元素置换为对角元素。 输入:input:矩阵,diagonal:对角元素。 例:a=tf.constant([[0,1,2,3],[-1,0,1,2],[-2,-1,0,1],[-3,-2,-1,0]])z=tf.matrix_set_diag(a,[10,11,12,1...
2018-10-25 13:56:26
2110
1
转载 tensorflow矩阵按维度复制tile
tf.tile()类似于numpy.tile()转自https://blog.youkuaiyun.com/qq_18433441/article/details/54897250 numpy.tile()是个什么函数呢,说白了,就是把数组沿各个方向复制比如 a = np.array([0,1,2]), np.tile(a,(2,1))就是把a先沿x轴(就这样称呼吧)复制1倍,即没有复制,仍然...
2018-10-25 11:28:53
11569
原创 通过 http 方式判断 RabbitMQ 队列是否存在
# summary: 通过 http 方式获取 RabbitMQ 队列状态# import os, sys, timeimport requestsimport jsonfrom nlp_property import NLP_FRAMEWORK_IPfrom urllib import parseclass RabbitMQTool: def __init__(self...
2018-10-25 11:07:10
7707
1
原创 ATT-CNN(attention based CNN)
ATT-CNN文本分类,论文解读(Attention-based Convolutional Neural Networks for Sentence Classification)Attention-based CNN1. Basic CNN2. ATT-CNN作者:sigma_Tian来源:优快云原文:https://blog.youkuaiyun.com/tcx1992/article/det...
2018-10-25 10:28:43
18285
12
转载 使用mutable对象作为Python函数参数默认值潜在的危害(Default argument is mutable)
参考自: 函数的缺省参数值(Default Argument Values) Python函数参数默认值的陷阱和原理深究问题我们在Python里写函数时,常常会给一些参数赋初始值。我们把这些初始值叫作Default Argument Values。 一般情况下,我们可以很自由的给参数赋初值,而不需要考虑任何异常的情况或者陷阱。但是当你给这些参数 赋值为可变对象(mutable ob...
2018-07-31 16:06:47
10531
原创 linux中tree命令以树状图列出目录的内容
目录:执行tree指令,它会列出指定目录下的所有文件,包括子目录里的文件。语法:tree(选项)(参数)选项:-a:显示所有文件和目录;-A:使用ASNI绘图字符显示树状图而非以ASCII字符组合;-C:在文件和目录清单加上色彩,便于区分各种类型;-d:先是目录名称而非内容;-D:列出文件或目录的更改时间;-f:在每个文件或目录之前,显示完整的相对路径名称;-F...
2018-07-09 10:06:32
1570
转载 C++中的iterator->second
iterator->second意思转自 http://lib.youkuaiyun.com/article/cplusplus/36005 std::map<X, Y>实际储存了一串std::pair<const X, Y>std::map<std::string, int> m = /* fill it */;auto it = m.begin();
2018-07-05 16:14:10
40347
9
原创 git
创建分支:查看当前分支git branch新建分支dev,并切换git checkout -b dev相当于:git branch devgit checkout dev提交修改至当前dev分支git add singleton.pygit commit -m 'update singleton'git push origin dev删除分支...
2018-07-04 15:14:40
211
原创 宾州CTB汉语树库
语料文件中的句法树来源有: NW: Newswire: [0001-0325, 0400-0454, 0500-0540, 0600-0885, 0900-0931, 4000-4050] MZ: Magazine articles: [0590-0596, 10001-1151] BN: Broadcast news: [2000-3145, 4051-4111] BC: Broadca...
2018-07-03 14:54:31
2702
原创 tensorflow函数记录
tensorflow中的一些函数,中文资料很少,需要翻墙查找外文资料,因此在这里记录下来tf.train.get_checkpoint_state该函数被用来获取已保存的checkpoint文件状态get_checkpoint_state( checkpoint_dir, latest_filename=None)从checkpoint文件返回Checkpo...
2018-06-19 09:24:31
534
原创 python里list的赋值,深拷贝
>>> a = [1,2,3,45,6,7,8]>>> b = a>>> b.append(9)>>> b[1, 2, 3, 45, 6, 7, 8, 9]>>> a[1, 2, 3, 45, 6, 7, 8, 9]>>> a.pop()9&
2018-06-13 15:46:11
436
转载 getopts
getopts可以编写脚本,使控制多个命令行参数更加容易。getopts用于形成命令行处理标 准形式。原则上讲,脚本应具有确认带有多个选项的命令文件标准格式的能力。2.1 getopts脚本实例 通过例子可以更好地理解getopts。以下getopts脚本接受下列选项或参数。 • a 设置变量ALL为true • h 设置变量HELP为true• f 设置变量FILE为true ...
2018-06-12 13:43:57
1544
转载 Shell中的${}、##和%%
介绍下Shell中的${}、##和%%使用范例,本文给出了不同情况下得到的结果。 假设定义了一个变量为: 代码如下:file=/dir1/dir2/dir3/my.file.txt可以用${ }分别替换得到不同的值: ${file#*/}:删掉第一个 / 及其左边的字符串:dir1/dir2/dir3/my.file.txt ${file##*/}:删掉最后一个 / 及其...
2018-06-11 17:28:32
659
转载 access internet scientifically
https://www.cnblogs.com/stackflow/p/8260118.html
2018-06-05 14:32:23
298
原创 利用brat进行语料标注
标注语料的时候可以采用brat语料标注工具具体过程参见 http://wetest.qq.com/lab/view/31.html brat具体相关配置步骤:http://brat.nlplab.org/configuration.html配置细节在配置entity时,还可以实现entity的层次结构。通过在每行开始处插入TAB字符指定这一层次结构。 (注:这里不可以用空格来代...
2018-06-05 13:35:15
18570
12
原创 vim中TAB自动变成4个空格,解决办法
在配置brat的时候,entity可以配置成具有级别关系的形式,用TAB进行标示,然而vim中会自动将TAB变成4个空格,导致brat识别不了禁止vim将TAB变成空格 在文件(~/.vimrc)里面设置 set noexpandtabecovacs@fs:~$ cat .vimrcset nuset hlsearchsyntax onset history=3000set t...
2018-06-05 09:31:19
6787
原创 mongodb中find满足多个条件
匹配多个条件db.things.find({ words: { $in: ["text", "here"] }})
2018-06-05 09:10:31
12893
转载 Python中把类的实例变成一个可调用对象(__call__)
__call__在Python中,函数其实是一个对象:>>> f = abs>>> f.__name__'abs'>>> f(-123)由于 f 可以被调用,所以,f 被称为可调用对象。所有的函数都是可调用对象。一个类实例也可以变成一个可调用对象,只需要实现一个特殊方法call()。我们把 Person 类变成...
2018-05-31 13:45:26
7221
原创 ML相关
过拟合语料受限决定了训练实例受限,这时如果特征越多特征空间中的各种相关参数训练就越不充分,从而会导致出现数据稀疏并最终导致实验结果中封闭测试性能较好,但表示机器学习模型泛化能力的开放测试性能较差。(篇章共指消解研究综述)...
2018-05-30 16:28:07
222
原创 安装tensorflow时six模块报错
python2.7安装Tensorflow时报错Cannot uninstall 'six'. It is a distutils installed project and thus we cannot accurately determine which files belong to it which would lead to only a partial uninstall.原因...
2018-05-29 10:12:20
2226
原创 Python对url编码
为什么要进行url编码url带参数的请求格式为(举例): http://www.baidu.com/s?k1=v1&k2=v2 参数中包含中文或者?、=等特殊符号时,通过url编码,将data转化为特定格式, 将中文和特殊符号进行编码,避免发生歧义. 另外,当请求数据为字典data = {k1:v1, k2:v2}时,可以通过编码转换为k1=v1&k2=v2url...
2018-05-23 13:55:46
1691
原创 tensorflow中的reshape
a = tf.constant(np.arange(1, 13, dtype=np.int32), shape=[2, 2, 3])==>[[[ 1 2 3] [ 4 5 6]] [[ 7 8 9] [10 11 12]]]b=tf.reshape(a,[-1,3])==>[[ 1 2 3] [ 4 5 6]...
2018-05-17 10:44:21
731
原创 tf.constant
创建一个常数张量,传入list或者数值来填充 # Constant 1-D Tensor populated with value list. tensor = tf.constant([1, 2, 3, 4, 5, 6, 7]) => [1 2 3 4 5 6 7] # Constant 2-D tensor populated with scalar value...
2018-05-17 10:09:55
27612
2
原创 tf.multiply()和tf.matmul()区别
tf.multiply是点乘,即Returns x * y element-wise,支持broadcastingtf.matmul是矩阵乘法,即Multiplies matrix a by matrix b, producing a * b.
2018-05-17 09:43:35
2747
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人