zdcs-优快云博客

原创关于保险的问答数据集

地址:https://github.com/shuzi/insuranceQA仅用于研究目的使用请引用一下论文: Applying Deep Learning to Answer Selection: A Study and An Open Task Minwei Feng, Bing Xiang, Michael R. Glass, Lidan Wang, Bowen Zhou ASRU 2...

2018-02-27 14:32:00 1641 1

原创 TrecQA 数据集简介

TrecQA------ TrecQA 数据集一般用来评估QA的答案选择它由一下论文发表和组织:+ Wang et al. [What is the Jeopardy Model? A Quasi-Synchronous Grammar for QA.](http://www.aclweb.org/anthology/D07-1003) *EMNLP-CoNLL 2007*.+ He...

2018-02-27 14:12:24 6152

原创记忆网络论文相关笔记(不全)

Hybrid computing using a neuralnetwork with dynamic external memory DNC 架构不同于最近提出的Memory networks和Pointer networks的神经记忆框架，其区别在于DNC内存有选择性地可以写入和读取，允许迭代修改内存内容。如果内存可以被认为是 DNC 的 RAM，然后网络，被称为控制器，是可微 CP...

2018-02-27 10:37:29 492 1

原创 AG及新闻主题分类数据集

AG是由ComeToMyHead超过一年的努力，从2000多不同的新闻来源搜集的超过1百万的新闻文章ComeToMyHead是一个学术新闻搜索引擎，开始于2004年7月 http://www.di.unipi.it/~gulli/AG_corpus_of_news_articles.html该数据集由学术社区提供，用于研究分类，聚类，信息获取(rank，搜索)...等非商业活动两个格式版...

2018-02-27 10:18:38 8955 2

原创 First Quora Dataset Release: Question Pairs

我就喜欢这种格式简单明了的数据集:id qid1 qid2 question1 question2 is_duplicate0 1 2 What is the step by step guide to invest in share market in india? What is the step by step guide to invest in share market? 01 3 4 ...

2018-02-22 00:51:06 1422

原创 Stanford Natural Language Inference (SNLI)和Multi-Genre NLI Corpus(MultiNLI) 数据集

Stanford Natural Language Inference (SNLI)和Multi-Genre NLI Corpus(MultiNLI) 数据集https://nlp.stanford.edu/projects/snli/https://www.nyu.edu/projects/bowman/multinli/MultiNLI是SNLI的升级版，格式一样，规模相当，但是前者变化更...

2018-02-19 10:45:01 8164

转载 SST数据集

参考：http://blog.youkuaiyun.com/ltochange/article/details/61194650http://blog.youkuaiyun.com/yeyang911/article/details/54378716

2018-02-19 00:29:24 12214 1

原创微软的MSR paraphrase数据集

5800对句子，人工标注关于语料的来源和标注方式参考readme样本如下, 非常简单明了:下载地址:https://www.microsoft.com/en-us/download/details.aspx?id=52398Quality #1 ID #2 ID #1 String #2 String1 702876 702977 Amrozi accused his brother, whom ...

2018-02-19 00:25:59 4307

转载微软WikiQA corpus 简介

太简单了，没什么好翻译的The WikiQA corpus is a new publicly available set of question and sentence pairs, collected and annotated for research on open-domain question answering. Last published: August 28, 2015....

2018-02-18 23:06:21 4098

原创 MSLR数据集简介

微软发布的两个规模较大的learning to rank数据集MSLR-WEB30k 30，000个查询query从其中随机采样10，000个形成mslr-web10k 描述:queries 和 urls 由ID来表示. 数据集包含了从q-u对中抽取的特征向量以及相关性评价标签(1) 相关性评价来自于 Microsoft Bing,5分制，从0 (不相关) 到 4 (最相关).(2) 特征由...

2018-02-18 22:41:25 2806 1

原创 SICK数据集简介

官方网址:http://clic.cimec.unitn.it/composes/sick.htmlSICK是Sentences Involving Compositional Knowledge 的首字母缩写SICK数据集包含一万个英语句子对, 来自于两个已经存在的paraphrase数据集：一个是8k imageFlickrbuilt, (http://nlp.cs.illinois.e...

2018-02-18 21:51:18 5020 3

原创论文笔记: Hierarchical Question-Image Co-Attention for Visual Question Answering

Hierarchical Question-Image Co-Attention for Visual Question AnsweringJiasenLu∗,JianweiYang∗,DhruvBatra∗† ,DeviParikh∗† ∗Virginia Tech,†Georgia Institute of Technology {jiasenlu, jw2yang, dbatra, pa

2017-02-09 10:40:53 2453

原创论文笔记： Review Networks for Caption Generation

Review Networks for Caption GenerationZhilinYang, YeYuan, YuexinWu, RuslanSalakhutdinov, WilliamW.Cohen School of Computer Science Carnegie Mellon University {zhiliny,yey1,yuexinw,rsalakhu,wcohen}@c

2017-02-06 14:13:10 1345

原创论文笔记：Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding

Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual GroundingAkiraFukui*1,2 DongHukPark*1 DaylenYang*1 AnnaRohrbach*1,3 TrevorDarrell1 MarcusRohrbach1 1UC Berkeley EECS, CA,

2017-02-06 12:25:18 2235

原创论文笔记: HADAMARD PRODUCT FOR LOW-RANK BILINEAR POOLING

HADAMARD PRODUCT FOR LOW-RANK BILINEAR POOLINGJin-HwaKim Interdisciplinary Program in Cognitive Science Seoul National University Seoul, 08826, Republic of Korea jhkim@bi.snu.ac.krKyoung-WoonOn Sc

2017-02-06 12:15:48 3121

翻译论文笔记: Compact Bilinear Pooling

Compact Bilinear PoolingYang Gao1, Oscar Beijbom1, Ning Zhang2∗, Trevor Darrell1 † 1EECS, UC Berkeley 2Snapchat Inc. {yg, obeijbom, trevor}@eecs.berkeley.edu {ning.zhang}@snapchat.comarXiv:1511.06

2017-02-06 11:43:07 5429 3

原创论文笔记:Ask, Attend and Answer: Exploring Question-Guided Spatial Attention for Visual Question Answeri

Ask, Attend and Answer: Exploring Question-Guided Spatial Attention for Visual Question AnsweringHuijuan Xu and Kate SaenkoDepartment of Computer Science, UMass Lowell, USA hxu1@cs.uml.edu, saenko

2017-02-05 18:55:26 1156

原创论文笔记:Aligning where to see and what to tell: image caption with region-based attention ...

Aligning where to see and what to tell: image caption with region-based attention and scene factorizationrXiv:1506.06272v1 [cs.CV] 20 Jun 2015摘要部分:本文提出一种图像文字标注系统利用了图像与句子之间的平行结构在该模型中，

2017-02-05 18:13:56 1375 2

原创 libffm with ftrl updater

这个东西之前就听说过，在某些特定场景效果很好,看到一个开源项目，所以把要点翻译了一些，同时实践了一下;大部分内容与libffm相同开源项目: https://github.com/CNevd/libffm-ftrl全名Factorization Machines with Follow-The-Regularized-Leader 论文Fac

2017-01-26 16:40:32 3020

原创 <持续更新>ubuntu下开发环境常见问题解决

常常是缺个库/包什么的，如今google经常用不了，所以记录下1找不到pthread的头文件，库sudo apt-get install libpthread-stubs0-dev不是sudo apt-get install pthread

2017-01-26 15:23:58 695

原创 lightGBM笔记(持续更新)

这个东西被视为比xgboost更好的GBDT

2017-01-14 10:39:43 17417 1

原创 kaggle 各种评价指标之二 :Error Metrics for Classification Problems 分类问题错误度量

基本上必须看一遍，顺便简单翻译一下：（暂时留着，持续更新ing）Error Metrics for Classification Problems 分类问题错误度量 Logarithmic Loss对数损失The logarithm of the likelihood function for a Bernoulli random dist

2017-01-10 14:49:51 3625

原创 kaggle 各种评价指标之一 :Error Metrics for Regression Problems 回归问题错误度量

基本上必须看一遍，顺便简单翻译一下：1 MAE统计上，MAE是一个用来衡量预测和最终结果之间的接近程度的数量In statistics, the mean absolute error (MAE) is a quantity used to measure how close forecasts or predictions are to the eventua

2017-01-10 14:17:55 4915 1

原创关于安装xgboost和lightGBM的python3封装的问题" Error: setup script specifies an absolute path"及其解决办法

无论是xgboost还是lightGBM，在python3的安装市，都会遇到一下类似问题installing library code to build/bdist.linux-x86_64/eggrunning install_librunning build_pyerror: Error: setup script specifies an absolute pat

2016-12-30 14:57:29 3590 1

原创在 '凯盛咨询' 上作得演讲 -- Fintech系列之一：人工智能在金融投资中应用概述

2016/12/28 晚上9点开始网络演讲录音（约一小时）可用手机下载凯盛app https://www.capvision.com/home/experts_app收听稍后发出slides

2016-12-28 10:29:52 918

原创深度学习常用包，库的功能及之间的关系

新入行员工经常问及一些库，包的功能和之间的关系，这里做个笔记:以下从最底层网上CUDA/openCL直接和硬件也就是nvidia的显卡打交道，我记得这里面有两种接口一个是runtime API,简单但功能有限；一个是 low-level CUDA driver API, 提供更细粒度的控制，自然编写代码更难些，需要对底层细节更加清除区别主要在于:Comple

2016-12-08 13:34:22 1432

原创 VQA(MSCOCO)数据集相关介绍

因为要预研VQA项目参考，趁GPU满负荷的时间，记录下这个数据集相关笔记：官方网站http://www.visualqa.org/目前发布了v1.0, 包含真实图像（MSCOCO 数据集）：204,721 MSCOCO images (all of current train/val/test)614,163 questions6,141,630 groun

2016-12-08 09:58:18 5687

原创视觉基因(visual genome)项目及数据集介绍

因为要预研VQA项目参考，趁GPU满负荷的时间，记录下这个数据集相关笔记：官方网站定义为：Visual Genome 是一个数据集，知识库，不断努力把结构化的图像概念和语言连接起来。使用了众包的方式实现，由李飞飞一位同事 Michael Bernstein 提出。截至今天2016/12/08包含：108077张图片540 万对区域的描述（Region

2016-12-08 09:43:02 6859

原创华为诺亚实验室中文对话语料库介绍

少有的中文对话语料库，记录一下格式相关信息，贴出样本以备快速参考，从样本看显然已经分词。以下内容主要来自 Readme for conversation_data_v1.1数据集有5个文件 1. post.index contains post_id with its contents 包含post_id及相关内容首先是p

2016-12-05 16:19:23 9798 7

原创康奈尔大学的电影对白语料库介绍 --Cornell Movie-Dialogs Corpus

这个公开的资源被很多和自然语言处理NLP相关的开源代码和论文提到，所以仔细阅读了readme，并记录相关要点所有文件以" +++$+++ "分隔符- movie_titles_metadata.txt - 包含每部电影标题信息 - fields: - movieID, - movie title,

2016-12-05 15:33:08 7071

原创在 '凯盛专家app ' 上作得演讲 -- 人工智能在P2P金融反欺诈应用

PPT下载http://download.youkuaiyun.com/detail/zdcs/9701251网络演讲录音（约一小时）可用手机下载凯盛专家app https://www.capvision.com/home/experts_app收听

2016-12-04 11:46:52 1798

原创 python 中如何实现类似C语言中 FILE, LINE, FUNC

可以使用python标准库inspect来实现标题所示功能~~~~~~~~~~:~/prj$ cat temp.py#-*- coding: utf-8 -*- import inspectdef printLineFileFunc(): callerframerecord = inspect.stack()[1] frame = callerfr

2016-11-29 10:00:43 4642

原创 Lua 中如何实现类似C语言中 FILE, LINE, FUNC

C语言中 __FILE__, __LINE__, __FUNC__ 分别可以表示当前代码行的文件名，行号，函数名，这对于调试代码非常方便，可以用printf打印出来Lua本身并没有实现__FILE__, __LINE__, __FUNC__，当我们可以这样加上首先在需要的文件中引入函数定义function __FILE__() return debug.g

2016-11-24 11:37:38 1041

zdcs的专栏