sunlylorn-优快云博客

原创 seq2seq模型

seq2seq模型，简单点说，是一个翻译模型，把一个sequence翻译成另一个sequence，最早在SMT领域被证明。其基本思想是两个RNNLM，一个作为encoder，另一个作为decoder，称为RNN Encoder–Decoder。作为encoder的RNN，用于把一个sequence压缩表示成一个固定大小的向量（fixed-length vector representation）（可以简单理解为，把一段文本进行语义表示）。作为decoder的RNN，根据encoder的vector（背

2016-01-29 15:08:43 29854

原创如何构建一个深度的RNN

今天阅读了论文《How to Construct Deep Recurrent Neural Networks》，论文讲解了如何构建一个深度的RNN模型。

2016-01-29 15:01:09 1691

转载理解HTTP幂等性

基于HTTP协议的Web API是时下最为流行的一种分布式服务提供方式。无论是在大型互联网应用还是企业级架构中，我们都见到了越来越多的SOA或RESTful的Web API。为什么Web API如此流行呢？我认为很大程度上应归功于简单有效的HTTP协议。HTTP协议是一种分布式的面向资源的网络应用层协议，无论是服务器端提供Web服务，还是客户端消费Web服务都非常简单。再加上浏览器、Javascr

2014-04-17 16:39:01 1193

转载似然函数Likelihood function

在数理统计学中，似然函数是一种关于统计模型中的参数的函数，表示模型参数中的似然性。似然函数在统计推断中有重大作用，如在最大似然估计和费雪信息之中的应用等等。“似然性”与“或然性”或“概率”意思相近，都是指某种事件发生的可能性，但是在统计学中，“似然性”和“或然性”或“概率”又有明确的区分。概率用于在已知一些参数的情况下，预测接下来的观测所得到的结果，而似然性则是用于在已知某些观测所得到的结果时，对

2014-02-21 10:58:26 31130

原创用nohup执行python程序时，print无法输出

nohup python test.py > nohup.out 2>&1 &发现nohup.out中显示不出来python程序中print的东西。这是因为python的输出有缓冲，导致nohup.out并不能够马上看到输出。python 有个-u参数，使得python不启用缓冲。nohup python -u test.py > nohup.out 2>&1 &

2014-02-12 18:40:18 45545 20

转载 LDA-math-MCMC 和 Gibbs Sampling

随机模拟随机模拟(或者统计模拟)方法有一个很酷的别名是蒙特卡罗方法(Monte Carlo Simulation)。这个方法的发展始于20世纪40年代，和原子弹制造的曼哈顿计划密切相关，当时的几个大牛，包括乌拉姆、冯.诺依曼、费米、费曼、Nicholas Metropolis，在美国洛斯阿拉莫斯国家实验室研究裂变物质的中子连锁反应的时候，开始使用统计模拟的方法,并在最早的计算机上进行编程

2014-01-26 11:49:16 2549

原创安装deep learning 的 python开发环境

最近在看deep learning的相关知识，从deeplearning.net上下载了一份代码，需要配置以下环境：安装步骤如下：0、python最好是2.6以上的，版本低的，记得升级一下。1、安装setuptoolshttps://pypi.python.org/pypi/setuptools/ python setup.py install 提示错误：Com

2014-01-23 17:46:30 7454

原创 win7下硬盘安装centos 6.5

一、安装过程中需要的软件1. 硬盘分区软件 pqmagic2. Ext2Fsd （见 http://www.linuxidc.com/Linux/2008-11/17469.htm ）在windows下复制文件到ext2（或ext3）文件系统中，由于ext2类型的文件系统在windows下是不能够识别的，即ext2类型的分区在windows下是隐藏不可见的，Ext2Fsd 可以通过设置显

2014-01-23 17:33:24 8523

原创 scrapy：python下的网页抓取及解析框架

项目主页：http://scrapy.org/，很简单实用的一个框架。

2014-01-20 11:35:39 1765

原创程序遇到core的时候使得程序继续执行的解决办法

最近有点懒了，好久没有更新博客了，今天来一发。在代码开发过程中，我们经常会遇到程序core掉，这个时候正常的处理步骤是，我们保留程序的coredump，然后分析，进而找出程序的bug，fix it！但是，如果你的程序是线上服务，而且只会有极少数的输入会导致程序core掉，而且你允许可以有少量错误发生，那么这时候，我们的一个直观想法是，有没有什么方法可以跳过这些该死的极少数异常数据

2013-11-20 15:37:07 3868

原创 stl for_each使用

template Function for_each (InputIterator first, InputIterator last, Function f);Apply function to rangeApplies function f to each of the elements in the range [first,last).The behavior of

2013-07-12 18:42:17 1147

原创坑爹的hiredis API使用

hiredis是redis的官方C API，但是不得不说API的使用很坑爹。hiredis提供了一个名为redisCommand的API用于向redis server发送命令，redisCommand的函数原型如下：void *redisCommand(redisContext *c, const char *format, ...)貌似很牛逼的样子，提供了类似printf

2013-07-04 15:48:49 17012 2

原创使用cacheArchive的方式优化hadoop job

一个hadoop job 有很多失败的task经查，该job依赖于很大的外部配置文件，大概有200MB左右的分词词典及其他配置文件。该job的启动方式为：/home/work/software/hadoop/bin/hadoop jar /home/work/software/hadoop/contrib/streaming/hadoop-streaming

2013-06-28 11:41:21 5212

原创 boost中的智能指针shared_ptr的指针管理

最近在阅读《Beyond the C++ STL》一书的shared_ptr一章时，遇到点困惑，记录如下：原书44~45页#include "boost/shared_ptr.hpp" #include #include class A { public: virtual void sing()= protected: virtual ~A() {};

2013-06-26 15:05:11 2719

转载搜索引擎优化的建议

搜索引擎优化（Search Engine Optimization，简称SEO），是指网站为了从搜索引擎获得免费流量而做的优化。本文提供一些优化建议，供各位参考。 1. 优化的目标：有效流量SEO能从搜索引擎得到免费流量，免费的当然越多越好。但要注意流量的质量，要有效流量而不是垃圾流量。什么是有效流量呢，对网站核心价值有帮助的流量。对于内容型网站来说，核心价值是忠实用户；对于电子商务网

2013-05-16 11:22:57 2240

原创 Cannot assign requested address以及大量的TIME_WAIT解决办法

curl在服务器上提示“Cannot assign requested address”错误，这是由于curl客户端频繁的连服务器，由于每次连接都在很短的时间内结束，导致很多的TIME_WAIT，以至于用光了可用的端口号，所以新的连接没办法绑定端口。端口号的数量取决于一个内核参数net.ipv4.ip_local_port_range：sysctl -a | grep portnet.ipv

2013-05-16 11:20:30 4948

转载中文依存句法分析概述及应用

句法分析是自然语言处理领域的一个关键问题,如能将其有效解决,一方面,可对相应树库构建体系的正确性和完善性进行验证;另一方面,也可直接服务于各种上层应用,比如搜索引擎用户日志分析和关键词识别,比如信息抽取、自动问答、机器翻译等其他自然语言处理相关的任务。短语结构和依存结构是目前句法分析中研究最广泛的两类文法体系。这里先大概介绍下依存结构。依存文法最早由法国语言学家L.Tesniere在其

2013-05-13 14:23:34 2635

原创 SecureCRT配置文件保存和导入

每次重装系统或换电脑后,SecureCRT都需要重新配置才能使用，为了减少不必要工作，在首次配置好环境后，请保存:XP下： C:\Users\XXX\AppData\Roaming\SecureCRTWin7下：C:\Users\XXX\AppData\Roaming\VanDyke\Config\Sessions目录下的文件或者config文件，下次只需要把这次文件重新导

2013-05-13 14:22:38 17770

原创 linux下uniq中文需要设置字符集

linux下uniq中文需要设置字符集 LANG=zh_CN.UTF-8或LANG=C

2013-05-13 14:19:30 2768

转载机器学习中的算法(1)-决策树模型组合之随机森林与GBDT

2013-05-13 14:12:29 1186

转载如何预测用户query意图

有一个朋友问，一个用户搜索一个query是“百度”，怎么知道用户真正是想找什么呢。我回答说，分析之前搜索这个query的用户点了些什么结果啊。朋友继续问，如果没有用户点击呢。呃，如果没有点击，这个问题就比较复杂了。整理了下思路，于是写成了本文。主要描述了关于如何预测用户query意图。希望会有所帮助。首先我们的明确一个标准，如何判断我们对用户意图的猜测是正确的?

2013-05-13 14:10:34 1661

转载 vim自动更新ctags与taglist

vim的ctags和taglist在默认情况下是不进行自动更新的，这对于编写代码是非常不方便的，好在vim的脚本还是很强大的，于是在vimrc中添加如下函数：function! UpdateCtags() let curdir=getcwd() while !filereadable("./tags") cd .. if getc

2013-05-13 14:09:16 10195

转载 Vim简明教程:基本可视模式

Vim简明教程:基本可视模式可视模式让你可以选择文件的一部分内容，以便作比如删除，复制等工作。进入可视模式v用v命令进入可视模式。当光标移动时，就能看到有一些文本被高亮显示了，它们就是被选中的内容。三种可视模式v一个字符一个字符地选。从按下v的那个字符起，一直到光标所移动到的位置之间的内容都被选中。V一行一行地选。从按下V的那行起

2013-05-13 14:07:33 1412

原创 vim 根据不同目录设置不同的vimrc

一、背景目录/home/user下有.vimrc目录 /home/user/dir1有.vimrc1目录 /home/user/dir2有.vimrc2二、期望目标：当在/home/user/dir1下面打开vim时，自动调用.vimrc1。当在/home/user/dir2下面打开vim时，自动调用.vimrc2。三、解决方法

2013-05-13 14:05:27 2057

转载个性化离线实时分析系统pora

1.业务场景伴随着市场和技术的发展，个性化已经成为淘宝搜索的一个重要目标。简单来说，个性化就是让每个用户在使用淘宝搜索时都能够获取自己最想要的结果，而不再是千篇一律的展示。实现个性化最直接的手段就是通过分析用户的历史行为日志，为用户打上不同的标签，在搜索中根据这些标签来展示最贴近的结果。在淘宝，用户属性分析是通过每天在云梯上定时运行的map reduce job来完成的，产出结果导入我们的

2013-05-13 14:03:48 1020

转载使用C++（通过Thrift）访问/操作/读写Hbase

要使用C++访问Hbase，可以走的途径少之又少，据说当前最好的方法就是通过Thrift来实现：http://thrift.apache.org/所以本文分成几部分：（1）安装Thrift；（2）用Thrift 生成访问Hbase所需的C++文件；（3）在程序中通过Thrift来访问Hbase。另外，本文只包含读写Hbase数据的例子，不包含配置Hbase的方法，如需这些内容，

2013-05-13 14:02:03 1969

原创基于论坛话题段落划分的答案识别

从实验室离开两年了，想不到毕业设计论文被发表出来了。哈哈http://www.aas.net.cn/qikan/Cpaper/zhaiyao.asp?bsid=14676*******************************************************我是华丽的分割线******************************************

2013-01-31 18:44:28 904

原创利用awk自身变量NR和FNR来处理多个文件

NR：表示awk开始执行程序后所读取的数据行数。FNR：awk当前读取的记录数，其变量值小于等于NR（比如当读取第二个文件时，FNR是从0开始重新计数，而NR不会）。NR==FNR：用于在读取两个或两个以上的文件时，判断是不是在读取第一个文件。使用方法：awk -F分隔符 'NR==FNR { do some stuff } NR!=FNR{ do so

2013-01-28 18:29:24 1097

原创 python各种类型转换-int,str,char,float,ord,hex,oct等

int(x [,base ]) 将x转换为一个整数 long(x [,base ]) 将x转换为一个长整数 float(x ) 将x转换到一个浮点数 complex(real [,imag ]) 创建一个复数 str(x ) 将对象 x 转换为字符串

2013-01-28 10:02:15 6876

转载 Hadoop中map端流程分析

1. map端的主要函数有以下几个：split --> Record Reader --> map --> partition --> combine（Local Reduce）2. 以上几个函数各自的作用如下：split：用于将HDFS中的文件分块，并完成分块文件到各个map任务的映射。Record Reader：因为每一个map函数的输入输出参数都是ke

2013-01-23 10:14:12 816

原创 hadoop需要多少个reducer？

Reduce的数目建议是0.95或1.75乘以 (no. of nodes> * mapred.tasktracker.reduce.tasks.maximum)。用0.95，所有reduce可以在maps一完成时就立刻启动，开始传输map的输出结果。用1.75，速度快的节点可以在完成第一轮reduce任务后，可以开始第二轮，这样可以得到比较好的负载均衡的效果。增加reduce的数

2013-01-18 16:04:38 1297

转载 Hadoop Streaming

Hadoop StreamingHadoop StreamingHadoop streaming是Hadoop的一个工具，它帮助用户创建和运行一类特殊的map/reduce作业，这些特殊的map/reduce作业是由一些可执行文件或脚本文件充当mapper或者reducer。例如：$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/had

2013-01-18 12:40:14 5435

原创 hadoop错误failed to report status for 600 seconds

hadoop运行reduce阶段总是报错：Task attempt_201301151634_193666_r_000010_0 failed to report status for 603 seconds这是由于执行合并索引操作时间较长，所以超过了600秒的时间限制，把这个值改高点就不会报错了。在程序里可以设置：job.getConfiguration().setI

2013-01-15 17:49:34 3511

原创 hadoop之grep

hadoop streaming -D stream.non.zero.exit.is.failure=false ...#!/bin/shisdebug=falseSTREAMING=/home/work/software/hadoop/contrib/streaming/hadoop-streaming.jarHADOOP=/home/work/software/ha

2013-01-11 12:40:17 4799

转载 hash_map 与 hash_set 详解

1 数据结构：hash_map原理这是一节让你深入理解hash_map的介绍，如果你只是想囫囵吞枣，不想理解其原理，你倒是可以略过这一节，但我还是建议你看看，多了解一些没有坏处。hash_map基于hash table（哈希表）。哈希表最大的优点，就是把数据的存储和查找消耗的时间大大降低，几乎可以看成是常数时间；而代价仅仅是消耗比较多的内存。然而在当前可利用内存越来越多的情况下，用空

2012-11-26 15:07:29 1097

转载 c++ string 和 stl算法

toupper,tolower地球人都知道 C++ 的 string 没有 toupper ，好在这不是个大问题，因为我们有 STL 算法：string s("heLLo");transform(s.begin(), s.end(), s.begin(), ::toupper);cout transform(s.begin(), s.end(), s.begin(), ::

2012-11-01 11:21:31 1625

原创几个常用的xargs使用例子

xargs是一个非常有用的命令。下面给出我常用的几个例子：假设有文件 f 内容如下：abc123456789qwertyoptest命令把命令行输入原样输出，源码如下：#include int main(int argc, char **argv){ for(int i=0; i<argc; ++i)

2012-09-28 18:23:56 1622

原创在OpenCV中自适应确定canny算法的分割门限

在OpenCV中用canny算子进行边缘检测速度很快，不过有点不爽的就是高低阈值需要输入。在OpenCV中自适应确定canny算法的分割门限一文仿照matlab中的做法，对canny函数进行了修改，以便当用户没有指定高低阈值时，由函数自适应确定阈值。代码如下：// 仿照matlab，自适应求高低两个门限CV_IMPL void AdaptiveFindThreshold(CvMat *

2012-09-25 10:35:44 16939 2

转载 cv::Mat，cvMat和IplImage的相互转换方法

Mat类型较CvMat和IplImage有更强的矩阵运算能力，支持常见的矩阵运算（参照Matlab中的各种矩阵运算），所以将IplImage类型和CvMat类型转换为Mat类型更易于数据处理。Mat类型可用于直接存储图像信息，通过函数imread、imwrite、imshow等实现（与Matlab中的函数相似），似乎在某种程度上可以取代IplImage类型。（1）将IplImage

2012-09-10 12:57:38 10360

转载 OpenCV 编程简介（矩阵/图像/视频的基本读写操作）

<!--@page {margin:2cm}pre {font-family:"DejaVu Sans Mono",monospace}h4 {margin-bottom:0.21cm}h4.western {font-family:"DejaVu Serif",serif}h4.cjk {font-family:"DejaVu Sans"; font-

2012-09-01 10:15:47 2246

空空如也

空空如也