- 博客(18)
- 收藏
- 关注
原创 Large-Scale Validation and Analysis of Interleaved Search Evaluation阅读摘要
INTRODUCTION专家判断与数据指标有效性,准确性和局限性介绍两种interleaving方法,通过问题验证和评估interleaving;是否与传统评估方法一致,是否与其他在线指标一致,敏感性和可靠性如何比较,以及如何在点击的不同信用分配方案中进行选择;最后指出interleaving的局限性。RETRIEVAL EVALUATION AND RELATED WORK(检索评估和...
2019-09-15 14:27:32
392
翻译 What You Must Know To Build Savvy Push Notifications(推送策略)
作者是slack的高级主管Noah Weisshttps://firstround.com/review/what-you-must-know-to-build-savvy-push-notifications/一、推送通知的演变在分享策略之前,Weiss总结了推送通知的演变,因为它涉及使ping强大的三个特质:及时,个性化和可操作性。他将推送的历史和进步视为构建未来战略时需要考虑的基本背景...
2018-11-29 15:30:26
295
翻译 网页AB Testing的七个原则(半成品)
这些是我们认为在网页优化和受控实验之外的分析具有广泛适用性的原则,然而,它们不是可证明为完全正确的,并且在某些情况下有例外。一.介绍第二部分主要提供一个控制实验的简要介绍,并介绍数据源和其中使用的KDD过程,第三部分是经验法则,文章的核心,第4部分是结论。参考阅读:Online Controlled Experiments at Large Scale二.控制变量实验,数据和KDD过程参...
2018-11-12 15:05:12
2279
翻译 Machine Learning Yearning47-52阅读笔记:端到端的深度学习
47.端到端学习的兴起假设你在做一个检测线上商品评价的系统,它能自动告诉你评论的作者是否喜欢这个商品,这个问题被称作情感分类。为了建立这个系统,你需要建立一个包含两部分的“管道”: 1.Parser:标注文本信息显示最重要的单词。例如,你可能用parser来标注所有的形容词和名词 2.情感分类:一个将标注文本作为学习算法的输入,并预测整个情感,这个解析器的标注信息将对算法帮助巨大,通过给形...
2018-07-14 15:46:30
422
翻译 Machine Learning Yearning 44-46阅读笔记:调试推理算法
44.优化验证实验假设你正在做一个语音识别系统,给系统一个输入音频A,计算每一个句子S输出的概率ScoreA(S)ScoreA(S)Score_A(S)。你需要找到句子S使得Output=argmaxScoreA(S)Output=argmaxScoreA(S)Output=arg max Score_A(S)。这里太多种组合,你需要应用一个近似搜索算法来找出S。例如集束搜索,在搜索过程中只保...
2018-06-20 20:51:42
182
翻译 Machine Learning Yearning 36-43阅读笔记:训练测试集分布不同
36.什么时候你应该在不同分布上做训练和测试当你的猫app已经上传10000张图,你已经人工标记它们有没有猫,同时你有200000张互联网上下载的图,这时你要怎么划分训练开发测试集呢? 当你训练深度学习模型时,可能必须用到那200000张图,那么训练和测试集的分布就不同,这会怎样影响你的工作呢? 当然将210000张图片随机分裂到训练开发测试集是一种方法,但我(吴恩达)不推荐这种方法,记住...
2018-06-06 17:14:22
6000
翻译 Machine Learning Yearning 33-35 阅读笔记:和人类水平进行比较
33.为什么我们和人类水平比较当你试图做一项人类可以很好完成的任务时,比较容易构建机器学习系统 1.容易获得label 2.可以由人的直觉进行错误分析 3.用人类水平估计最优错误率并设置期望错误率 而对于一些人类都不能很好胜任的任务,例如推荐和预测,那么会有以下问题: 1.难以获得标签 2.人类直觉不起作用,很难提升算法 3.很难知道最佳错误率和合理的期望错误率34.如何定义人类的表...
2018-06-06 15:22:51
230
翻译 Machine Learning Yearning 28-32阅读笔记:学习曲线
28.诊断偏差和方差:学习曲线将期望水平添加到学习曲线中,并通过样本数-误差 横轴训练集大小,纵轴error,绘制开发集误差(将训练误差也添加进去)29.绘制训练错误曲线训练集误差随训练集大小增加而增加:算法很难完全适应更多的样本。 30.解读学习曲线:高偏差 更多的训练数据,训练集error只会变得更大。因此训练错误曲线只会保持不动或变得更高,而开发集错误曲线通常要高于...
2018-05-28 12:00:58
323
翻译 Machine Learning Yearning 20-27阅读笔记:偏差和方差
20.方差和偏差:两大错误来源尽管更多的数据是无害的,但它并不如我们期望的那样有帮助,获取更多的数据可能是浪费时间(这里的方差的定义是非正式的)。21.例子这里的方差和过拟合欠拟合无关22.和最优错误率比较假设你面对的问题是即使人类也有其极限,那么你可能确定最优错误率就是人类的极限错误率。 最优错误率:不可避免的偏差。理论上来说是可以避免的。贝叶斯错误率。23.处理偏...
2018-05-25 19:55:25
168
翻译 Machine Learning Yearning 13-19 阅读笔记:错误分析
13.快速构建第一个系统,然后迭代即使是我(吴恩达)这样经验丰富的人,也很难选择一个正确的前进方向,所以不要试图设计和构建完美的系统,而应该快速构建第一个系统,然后迭代。PS:对研究人不适用。14.通过查看开发集样本来评估idea当你决定将接下来的时间投入到某个idea时,强烈建议你首先评估它实际上会提高多少系统的准确率,具体来说,你可以做以下事情: 1.收集100个系统错误分类的样...
2018-05-25 18:31:03
366
翻译 Machine Learning Yearning 4-12 阅读笔记:开发/测试集与评估指标
主要内容在训练模型的时候,如果效果不如人意,这时候你可以采取很多办法来改进模型,但是可选的方法太多,你究竟该先用哪些方法呢?Andrew Ng的这本书就是为此而写。Ps:开发集就是验证集。4. 规模驱动机器学习前进驱动深度学习进步的两大因素1.大量可用数据2.计算能力 具体来说,即使有更多的数据,传统机器学习算法也不会有效果提升。 这个图表展示了NN在小数据集下做得更好。这种效...
2018-05-25 15:56:02
549
转载 基于知识图谱的问答系统(四):向量建模篇
首先根据问题中的主题词在知识库中确定候选答案。 把问题和候选答案都映射到一个低维空间,得到它们的分布式表达(Distributed Embedding), 通过训练数据对该分布式表达进行训练,使得问题向量和它对应的正确答案向量在低维空间的关联得分(通常以点乘为形式)尽量高。 当模型训练完成后,则可根据候选答案的向量表达和问题表达的得分进行筛选,找出得分最高的作为最终答案。关键问题...
2018-05-03 17:20:13
2684
转载 基于知识图谱的问答系统(三): 信息抽取
通过问句中的主题词可以找到它在知识库中对应的图节点,我们将该图节点相邻几跳(hop)范围内的节点和边抽取出来得到一个知识库的子图,这个子图作者称为主题图(Topic graph),一般来说,这里的跳数一般为一跳或两跳,即与主题词对应的图节点在一条或两条边之内的距离。主题图中的节点,即是候选答案。接下来,我们需要观察问题,对问题进行信息抽取,获取能帮助我们在候选答案中筛选出正确答案的信息。依...
2018-05-03 16:21:51
4224
转载 基于知识图谱的问答系统(二): 语义解析
语义解析KB-QA的思路是通过对自然语言进行语义上的分析,转化成为一种能够让知识库“看懂”的语义表示,进而通过知识库中的知识,进行推理(Inference)查询(Query),得出最终的答案。简而言之,语义解析要做的事情,就是将自然语言的问题,转化为一种能够让知识库“看懂”的语义表示,这种语义表示即逻辑形式(Logic Form)。逻辑形式的具体内容参考: Berant J, Chou A, ...
2018-05-03 15:47:15
8366
转载 基于知识图谱的问答系统(一)
知识库可以分为两种类型,一种是以Freebase,Yago2为代表的Curated KBs,它们从维基百科和WordNet等知识库中抽取大量的实体及实体关系,可以把它们理解为是一种结构化的维基百科,被google收购的Freebase中包含了上千万个实体,共计19亿条triple。知识库的另外一种类型,则是以Open Information Extraction (Open IE), Neve...
2018-05-03 14:56:03
16349
转载 知识图谱学习(一):知识提取
一. 正则表达式1.1 Python re1.1.1 regex语法 推荐网站http://pythex.org/,不但有语法,还可以在线测试1.1.2 match匹配模式 re.match(pattern,string,flags)尝试从字符串的开始匹配一个模式,flags是匹配模式,可以使用按位或’|’表示同时生效,也可以在正则表达式字符串中指定。 1)....
2018-05-02 23:15:58
5652
3
转载 知识图谱学习(二): 知识表示
传统的知识图谱的KR,从逻辑和推理讲起,有一阶逻辑(first-order logic)和描述逻辑(description logic),后来又有逻辑程序(logic program)和生成规则(Production Rule)。知识表现的数据结构,一般来说是那些“复杂”的结构,最常见的就是图(graph)和树(tree)。知识表现的图,是“有类型的边”(typed edge),分析方法和一般的图...
2018-04-30 20:50:09
3308
转载 COMS W4705: Natural Language Processing学习笔记(一)
Machine Translation(机器翻译),Information Extraction(信息提取),Text Summarization(文本归纳),Dialogue Systems (对话系统)最基本的nlp问题叫做Tagging(词性标注)1.语言建模问题 一种简单的估计方法:2.Trigram模型 语言模型中使用最为广泛的模型叫做Markov模型 在...
2018-03-27 10:27:04
1194
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人