- 博客(128)
- 收藏
- 关注
原创 DRCN Model
Kim S, Hong J H, Kang I, et al. Semantic Sentence Matching with Densely-connected Recurrent and Co-attentive Information[J]. arXiv preprint arXiv:1805.11360, 2018.这个问题可能就被这篇paper终结了… Qoura数据集已经...
2018-08-06 23:28:50
2201
原创 DRMM model
Paper 的引用: Guo J, Fan Y, Ai Q, et al. A deep relevance matching model for ad-hoc retrieval[C]//Proceedings of the 25th ACM International on Conference on Information and Knowledge Management. ACM,...
2018-07-30 20:02:23
2798
原创 ABCNN
昨天和师兄聊了一下对attention的理解 其实相似性矩阵本身并不是模型的参数,是参数的只是后面的dense layers;看了好久才弄懂ABCNN的卷积过程。 其实卷积也还是就是Yoon Kim的方法。 协助理解的时候,这篇讲的还是很好的:https://blog.youkuaiyun.com/liuchonge/article/details/69587681后面这里提了一...
2018-07-24 19:53:38
1103
1
原创 【论文笔记】Decomposable attention
是这个Paper的一些笔记 Parikh A P, Täckström O, Das D, et al. A decomposable attention model for natural language inference[J]. arXiv preprint arXiv:1606.01933, 2016.这是一个比较简单易行的方法:两个句子之间怎么做attention 下面...
2018-07-12 23:21:37
3728
原创 word2vec中的Negative sampling 和 Subsampling
欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I...
2018-06-21 16:22:26
1428
原创 Cross Entropy
对于分类问题,NN的损失函数一般会用 Cross Entropy它的解释为:如果我们的数据有 {1,2,...,C}{1,2,...,C}\{ 1,2,...,C \} 这么多类别。 那么对于一条数据 xxx,我们分类正确 yyy 的最大似然概率为:p(y|x)=exp(Wyx)∑Cc=1exp(Wcx)p(y|x)=exp(Wyx)∑c=1Cexp(Wcx)p(y|x)= \fr...
2018-06-13 20:40:32
258
原创 【论文笔记】Learning to ask good questions: Ranking clarification questions using Neural Expected Value
这是ACL2018的一篇Best papers. 解决的是论坛提问中对posts的信息补全的问题 用到的数据是StackExchange的数据场景论坛求助中的一些posts并不完善,有些问题直接开问,并没有包含如 自己系统版本号,环境 等信息的说明,这种问题很难得到确切的回答。作者通过NN的方法想办法去补全这些信息在问题中,应用场景可能就是,当作者要发布的时候,系统会自动提示作者需...
2018-06-12 16:50:04
1711
原创 Latent Semantic Analysis 笔记
传统向量空间模型的缺陷 向量空间模型是信息检索中最常用的检索方法,其检索过程是,将文档集D中的所有文档和查询都表示成以单词为特征的向量,特征值为每个单词的TF-IDF值,然后使用向量空间模型(亦即计算查询q的向量和每个文档di的向量之间的相似度)来衡量文档和查询之间的相似度,从而得到和给定查询最相关的文档。 向量空间模型简单的基于单词的出现与否以及TF-IDF等信息来进行检索,但是“
2018-01-03 16:51:07
427
原创 【论文笔记】Embedding of Embedding (EOE) : Joint Embedding for Coupled Heterogeneous Networks
扫论文的笔记 只是一个比abstract 详细一点点的简介Applicationsvisualizationlink prediction multi-class classification and multi-label classification.Particularly, multi-class classification and multi-label classificat
2017-12-17 20:38:58
2146
原创 BDCI 2017 商铺预测(回忆)
一次结束,总归要写个回忆 一是以后写进简历的项目经历可以复习 二是对过去一个多月的时间的交代 (可能会较啰嗦吧, 穿插着回忆)比赛页面 比赛前一个多月前,组内大佬问我要不要参加这次CCF大赛,我确实不想参加,因为当时的我,申请没搞定,文书没搞定,套磁一个offer都没有,回信都没有。 都要失学了,做什么比赛啊。可是组内成员几乎都参赛了,组会都已经变成竞赛讨论的主题。我也在想,我进实验室这一年
2017-12-14 23:35:08
749
原创 【机器学习笔记】权衡 bias 和 variance
Training error & Generalization errorTraining error 是说对于一个假设 hh ,在 mm 个样本中,hh 分类错误的个数:ϵ^(h)=1m∑i=1m1{h(x(i))≠y(i)}\hat\epsilon(h)=\frac{1}{m}\sum_{i=1}^m1\{h(x^{(i)})\ne y^{(i)}\}Generalization error 是
2017-10-17 15:35:32
755
转载 再论数据科学竞赛中的Data Leakage
越来越多的数据爱好者把注意力放在了数据竞赛上,像Kaggle数据竞赛。这类数据竞赛中,有时会遇到Data Leakage。而大部分人对Data Leakage的概念理解都是错误的。这次,我们来梳理一下Data Leakage,希望能让大家对数据中的因果关系更加重视。
2017-10-16 21:29:12
1420
原创 【机器学习笔记】判别模型和生成模型(贝叶斯估计)
先验和后验的区别先验概率是在缺乏某个事实的情况下描述一个变量; 而后验概率是在考虑了一个事实之后的条件概率. 先验概率通常是经验丰富的专家的纯主观的估计. 判别模型不妨重新考虑一下LR的过程来理解,因为这就是一个判别模型,我总是在用这个例子。 我们有一堆样本点 (x1,y1),(x2,y2),...,(xn,yn)(x_1,y_1),(x_2,y_2),...,(x_n,y_n) , 希望通过
2017-10-08 22:20:25
1922
原创 【机器学习笔记】伯努利分布和高斯分布
涉及到的两个概念就是 : 广义线性模型(Generalized Linear Models) 和 指数分布族 (The exponential family)有一个这样神奇的式子: p(y;η)=b(y)eηTT(y)−a(η)p(y;\eta) = b(y)e^{\eta^TT(y)-a(\eta)}来表示指数分布族,只要我们给定特定的 T(y),a(y),b(y)T(y), a(y), b(
2017-10-03 16:00:49
7333
1
原创 【机器学习笔记】Hessian矩阵
看牛顿法的时候,遇到的这个问题 原问题是要用牛顿法求对数似然函数 l(θ)l(\theta) 的最大值,也就是似然函数导数的零点,即迭代过程为: θ:=θ−l′(θ)l′′(θ)\theta := \theta - \frac{l^{'}(\theta)}{l^{''}(\theta)}如果 θ\theta 为向量,就会想,函数对向量求导怎么求? 所以查了一下:1. 标量对向量求导:结果是向量
2017-10-03 14:35:21
8530
1
原创 【机器学习笔记】Locally Weighted Regression (Loess)
非参数学习算法参数数量随着训练集大小增长Locally Weighted Regression(Loess)简单来说就是事先不用确定参数数量(模型), 每次预测的时候,用指定的样本点周围的样本点进行临时训练,确定参数;like this:选定中心点 xx 周围 nn 个点 x(i),...x(n)x^{(i)},...x^{(n)}定义 θ:[θ1,...,θn]\theta:[\theta_
2017-10-02 20:40:30
1741
原创 【机器学习笔记】最大似然估计法与LR中 J of theta 的概率解释
看公开课的时候再次遇到,决心搞懂他…首先是Andrew Ng在公开课中提到为什么LR的损失函数要用最小二乘,给出了概率解释,是在样本误差服从IID,并且误差整体服从高斯分布的最大似然函数的log表出。最大似然估计法先从一个比较普遍的例子讲起:如果做一个放回的小球实验,袋子里即有不确定数量的黑色和白色的小球,我们每次拿出一个,记录颜色放回,重复100次;如果在100次中,有70次黑球,30次白球,设每
2017-10-02 20:20:01
1350
原创 Apriori算法
从大规模数据集中寻找物品间的隐含关系被称作关联分析(association analysis)或者关联规则学习(association rule learning)。这里的主要问题在于,寻找物品的不同组合是一项十分耗时的任务,所需的计算代价很高,蛮力搜索方法并不能解决这个问题,所以需要用更智能的方法在合理的时间范围内找到频繁项集。关联分析是在大规模数据集中寻找有趣关系的任务。这些关系可以有两种形式:
2017-09-07 17:45:21
467
原创 【机器学习笔记】SVM part2: 核函数与SMO算法
回顾我们之前的问题: 之前我们说到,假设我们了 α\alpha, 又有样本点数据,我们很容易由 w=∑mi=1αiy(i)x(i)w=\sum_{i=1}^m\alpha_iy^{(i)}x^{(i)} 得出 ww, 同时也求得了 bb那么就得到了这个分类面 wTx+bw^Tx+b ,我们换一种表示方法: wTx+b=(∑i=1mαiy(i)x(i))Tx+b=∑i=1mαiy(i)<x(i)
2017-09-03 17:34:36
2262
原创 【论文笔记】Learning to log
paper链接:http://www.academia.edu/download/36281506/jmzhu_icse2015.pdfAbstract作者先进行了背景介绍, 在这篇paper里提出了一个 learning to log 的架构,旨在提供logging的指导;其中的一个实现就是他们做出的一个工具:LogAdviser;从已有的logging实例中学习 where to log 这个
2017-08-26 19:32:26
545
原创 【机器学习笔记】SVM part1: 线性SVM
前言先说我对线性SVM的整体理解吧: 其实就是一个最优间隔的二分类器(如下图) 目标就是找到中间那个最优的分类超平面,而如图在虚线上的点,就是所谓的支持向量(support vectors) 。在求解这一问题的时候用到了对偶问题来帮助解决(为什么要用对偶问题?)而想要这样的话,我们定义了一个满足KKT条件的原问题,这里很巧妙的一点在于,KKT 的总体思想是认为极值会在可行域边界上取得,我觉得这一
2017-08-26 19:20:58
748
原创 神经网络笔记(BP)
BackPropagation:http://www.cnblogs.com/charlotte77/p/5629865.html 作者结合ufldl讲的十分透彻,以致于我不知道该写些什么好… 相信这是一个很好的入门教程。sigmoid 函数 和 双曲正切(tanh)函数sigmoid函数: 双曲正切函数: tanh函数是sigmoid函数的一种变体,它的取值范围为 [−1,1]\tex
2017-08-17 10:25:02
1014
原创 【论文笔记】Convolutional Neural Networks for Sentence Classification
paper链接 https://arxiv.org/abs/1408.5882 阅读这篇paper的一些笔记:Abstract本文将CNN和NLP结合; 介绍了一系列的对比实验,实验结果说明了:一个简单的(单层神经网络)的CNN模型一点超参数的调节(Filter的个数)static word vector文本分类的效果很好non-static就是词向量随着模型训练变化,这样的好处是词向量
2017-08-16 21:24:39
1236
原创 Word2vec 入门(skip-gram部分)
Skip-gram给定句子中一个特定的词(input word),随机选它附近的一个词。网络的目标是预测 我们选到这个附近词的概率。输入,输出取窗口大小为2(前后两个词):得到一些词对: 如之中的(quick, brown) 训练神经网络时: 输入quick的one-hot编码, 输出层softmax分层的brown的概率应该是最大的隐层:我们训练一个简单的网络来执行一个任务,但是我们实际
2017-08-15 21:28:45
3766
1
原创 Softmax
自己的一点理解,感觉还是要记下来…Softmax 是将LR用于多分类, 就按照类比的思路写下来。先简单说一下LR首先,还是要基于这个框架(如下)做一个假设函数 (hypothesis function) 假设自变量 x 是多维向量,也可以理解为多维特征吧: x=[x1,x2,...,xn]x = [x_1, x_2, ..., x_n] 我们就可以把假设函数设为: 为了简化,x0=1
2017-08-15 12:15:08
473
转载 特征选取relief算法
摘录的一个特征选取relief算法的一段java代码,还是讲的很清晰的 样本点之间的距离用欧氏距离来实现 原文链接: http://blog.youkuaiyun.com/nma_123456/article/details/51490637/** * relief算法 */ public void relief(){ matrix = new double[lengt
2017-07-23 21:06:20
2095
原创 Python 数据处理的 Some tips --- 索引
《利用Python进行数据分析》笔记我个人觉得有些东西是需要用到的时候查一下就行的,比如矩阵求逆,矩阵转置,但是一些更加常用的东西还是要扫一遍书的,记录下来一些印象深刻的点,以后查着方便。蛋疼,其实就是简单学一下索引,不然取数据都不会写下的东西并不官方,也不敢说会帮助什么人,觉得还是自己的一些笔记而已yield: 生成时才调用,有点C++里面动态绑定的意味Numpy: Numpy的数组切片
2017-03-23 16:59:20
630
转载 协方差的意义和计算公式
转载链接:http://blog.youkuaiyun.com/beechina/article/details/51074750学过概率统计的孩子都知道,统计里最基本的概念就是样本的均值,方差,或者再加个标准差。首先我们给你一个含有n个样本的集合,依次给出这些概念的公式描述,这些高中学过数学的孩子都应该知道吧,一带而过。很显然,均值描述的是样本集合的中间点,它告诉我们的信
2017-02-27 20:48:11
436
原创 【机器学习】朴素贝叶斯
好的,回去看完了Andrew Ng的关于这一节的公开课,还有中文的课堂笔记 然后参照了一下《集体智慧编程》这本书,现在对这个算法有一个全面的理解了贝叶斯决策,基本上,从直观理解就是做了这样的事情: 给定历史的数据和类别,然后新来一个数据,计算新来的数据属于每个类别的概率,然后将新来的数据归为概率最大的那一类。贝叶斯定理: p(c|w)=p(w|c)p(c)p(w)p(c|w) = \fra
2017-02-24 18:01:07
564
原创 NumPy笔记
发现一个好玩的: http://jingyan.baidu.com/season/3566201: mat()matrix = mat(array) 将一个多维数组转化成NumPy矩阵02: *两个NumPy array相乘,是对应位置做算数乘法from numpy import *a = [1,2,3]b = ones(3)b = 2*bprint bprint a*b输出:[ 2.
2016-12-26 22:09:43
512
原创 Scrapy爬取大众点评
内容:美食品类750个商家: 商家的页面url 商家的主要信息 商家所有的促销信息(1200+条) 商家所有的评论信息(没爬完,14w+条) 发表这些评论的所有用户的信息(没爬完,5w+条) 代码:https://github.com/preke/Spiders/tree/master/DaZhongDianPing总结和学习的一些点:大众点评有反爬机制,直接运行爬
2016-12-15 21:23:43
5707
原创 python dict的一些简单用法
我以为我dict用的很熟了,但是真正再去用的时候发现还是底子太薄,太多地方容易出错了;dict的创建:d = dict()这样创建了一个新的dict,不包含任何key,valuedict的插入和赋值: 如果我不知道一个dict对象里是否有dict[key]的话,我要先判断一下: 用has_key()返回boolean变量if d.han_key('key'): #do somet
2016-12-13 17:32:33
2458
原创 python修改文件(fileinput)
上网查了好多方法都是将文件一行一行都进来,然后新开一个文件指针,将文件再一行行写进新文件里。 感觉不是太好,看到这个fileinput的库,发现大同小异,不过有一点就是可以在原文件上修改,不用新开文件。举个简单的例子: 我有json文件1.json是如下格式:/* 1 */{ "_id" : "18372776", "city" : "广州", "gender" : "
2016-12-12 15:43:37
4178
原创 python 读取 json文件
本文是碎片知识本文用的是python 2.7如果我又一个文件1.json内容如下:{ "_id" : "318071578", "avg_cost" : "", "user_id" : "108781651", "stars" : 5, "content" : "够辣够麻 一直会光顾的 推荐!", "shop_id" : "198191132",
2016-12-12 09:58:09
11253
1
原创 【剑指offer】面试题25:二叉树中和为某一值的路径
题目:输入一棵二叉树和一个整数,打印出二叉树中结点值的和为输入整数的所有路径。从树的根结点开始往下一直到叶结点所经过的结点形成一条路径。二叉树结点的定义如下:struct BinaryTreeNode{ int value; BinaryTreeNode* left; BinaryTreeNode* right;};想法:先理解路径,就是树根到叶子节点的条路,那我们先实现出
2016-09-10 10:13:58
398
原创 【《C++ Primer Plus》读书笔记】异常
abort()直接终止程序,提示信息exit()刷新文件缓冲区,但是不提示消息try, throw, catch一个try可以跟多个catch;throw的原理: 执行throw终止函数的执行,导致程序沿函数的调用序列后退,直到找到包含try块的函数。 (这里是否是,编译器如果看到try语句,就把try块内所有执行的语句结果都压栈保护现场呢?) 看了栈解退的机理好像不是这样,遇到throw语句
2016-09-07 11:21:11
653
原创 【nowcoder】9.5 阿里巴巴2017实习生笔试题(一)
http://www.nowcoder.com/questionTerminal/0cd6af2fd4374df597b49e09302b1a5a - 使用 inline 关键字的函数只是用户希望它成为内联函数,但编译器有权忽略这个请求,比如:若此函数体太大,则不会把它作为内联函数展开的 - 头文件中不仅要包含 inline 函数的声明,而且必须包含定义,且在定义时必须加上 inline 。
2016-09-05 10:48:04
786
原创 【nowcoder】9.4 C++评估测试总结
遇到让补全代码的选择题,实在没思路,但是时间又很充裕,可以代进去尝试。enum在函数外声明变量,初始化的时候,变量默认为0整个数组作为参数,会退化为指针sizeof()返回的是字节数(Bytes)对字符串取sizeof()的话,会加上’\0’静态存储空间内的变量,构造函数的调用顺序和析构函数的调用顺序相反http://www.nowcoder.com/questionTerminal/ab
2016-09-04 23:34:17
534
转载 C++ enum用法
原文链接:http://www.cnblogs.com/ifaithu/articles/2638218.html1、为什么要用enum 写程序时,我们常常需要为某个对象关联一组可选alternative属性.例如,学生的成绩分A,B,C,D等,天气分sunny, cloudy, rainy等等。 更常见的,打开一个文件可能有三种状态:input, output和ap
2016-09-04 20:58:30
597
原创 进程同步
在多道程序环境下,进程是并发执行的,不同进程之间存在着不同的相互制约关系。为了协调进程之间的相互制约关系,引入了进程同步的概念。临界资源虽然多个进程可以共享系统中的各种资源,但其中许多资源一次只能为一个进程所使用,我们把一次仅允许一个进程使用的资源称为临界资源。许多物理设备都属于临界资源,如打印机等。此外,还有许多变量、数据等都可以被若干进程共享,也属于临界资源。对临界资源的访问,必须互斥地进行,在
2016-08-31 19:10:18
1003
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人