
长篇
文章平均质量分 91
ZSYGOOOD
这个作者很懒,什么都没留下…
展开
-
笔记(总结)-Logistic Regression
从线性回归讲起先说回归问题。对于回归问题,最常用的是用线性函数来拟合待预测值,即: f(x)=wTx+b,f(x)=w^Tx+b, 使得 f(x)≈yf(x)≈y上述情况中,待预测值是在线性尺度上变化,假若是在指数尺度上变化(yy取值类似于1、2、4、8、16…),则可将待预测值的对数作为线性函数逼近的目标,即: lny=wTx+blny=w^Tx+b这实际上是试图让ewTx+be原创 2018-01-16 22:06:56 · 393 阅读 · 0 评论 -
笔记(总结)-卷积神经网络
神经网络是一棵根深叶茂的大树,有过许多果实,可是都略显青涩,无法摘食。直到2010年后,这棵大树才真正可谓硕果累累,其中最璀璨甘甜的就是卷积神经网络(Convolutional Neural Network,下称CNN)。在这之后,神经网络再次成为科研界的热点,在这个数据和算力初具规模的时代,神经网络终于展现出了应用的价值。闲话到此,只是想说明CNN对于神经网络的意义。本篇将主要讨论CNN的模型原...原创 2018-07-11 09:47:21 · 548 阅读 · 0 评论 -
笔记(总结)-循环神经网络
起源全连接神经网络能够很好地拟合复杂的样本特征,卷积神经网络能很好地建模局部与全局特征的关系。但它们都只能处理定长的输入、输出,而自然语言的处理对象一般是变长的语句,句子中各元素出现的顺序先后暗含着时序关系,循环神经网络(Recurrent Neural Network,下称RNN)能够较好地处理这种关系。基本结构RNN的基本思想是:将处理对象在时序上分解为具有相同结构的单元,单元...原创 2018-07-11 22:25:49 · 731 阅读 · 0 评论 -
笔记(总结)-从马尔可夫模型到条件随机场-1
本篇针对概率图模型做一个总结。顺序依次为: 马尔可夫模型(Markov Model,下称MM)⟹⟹\Longrightarrow 隐马尔可夫模型(Hidden Markov Model,下称HMM) 最大熵模型(Maximum Entropy Model,下称MEM)⟹⟹\Longrightarrow 最大熵隐马模型(Maximum Entropy Markov Model,下称MEMM)...原创 2018-07-12 10:36:23 · 1406 阅读 · 0 评论 -
笔记(总结)-序列标注问题与求解
在讲述了大量的概率图模型后,本篇介绍下它发挥作用的主要场景——序列标注(Sequence Labaling)。序列包括时间序列以及general sequence,但两者无异。连续的序列在分析时也会先离散化处理。常见的序列有如:时序数据、本文句子、语音数据、等等。常见的序列问题有:拟合、预测未来节点(走势分析,如股票预测、销量预测等)判定序列所属类别,即分类问题(如语音识别,判断声音序列所...原创 2018-07-18 10:52:30 · 5014 阅读 · 0 评论 -
笔记(总结)-从马尔可夫模型到条件随机场-2
本篇紧接上篇笔记(总结)-从马尔可夫模型到条件随机场-1,讲述最大熵模型(Maximum Entropy Model)。最大熵模型先来简单介绍下熵的概念,看看为什么要“最大熵”建模。 熵用来度量随机变量的不确定性。即熵越大,不确定性越大。举个例子,给定一个骰子,问抛出去后最终每个面朝上的概率是多少?一般人都会回答“等概率”。为什么这么回答?因为对这个“一无所知的“骰子,假...原创 2018-07-13 21:13:30 · 549 阅读 · 0 评论 -
笔记(总结)-注意力机制(Attention)简述
本篇主要针对注意力(Attention)机制进行简要描述。Attention是为了解决Sequence-to-Sequence中的一些问题而提出的,本身的逻辑十分简洁。Attention的产生过程反映了解决问题的一种最直接的思路,正如Resnet中提出“残差”的概念一样,简单直接的就能解决问题,而且思路没有绕任何弯子。这在科研工作中是十分难得的。下面结合机器翻译问题来回顾下这整个过程。Se...原创 2018-07-20 09:33:52 · 4596 阅读 · 1 评论 -
笔记(总结)-从马尔可夫模型到条件随机场-3
本篇紧接上篇笔记(总结)-从马尔可夫模型到条件随机场-2,讲述条件随机场(Conditional Random Field)。条件随机场定义先给出几个相关概念的定义。 随机场:可看成是一组随机变量的集合(这组随机变量对应同一个样本空间)。这些随机变量之间可能有依赖关系,当给每一个位置中随机变量按照某种分布随机赋予相空间(相空间是一个用以表示出一系统所有可能状态的空间,...原创 2018-07-14 16:28:30 · 696 阅读 · 0 评论 -
论文列表——fake news
列出自己阅读的fake news detection论文的列表,以后有时间再整理相应的笔记。阅读价值评分纯粹是基于自己对于文章的理解,标准包括:动机、方法、数据集质量、实验安排、相关工作等,满分为5。列表如下:名称所属会议类型时间阅读价值“Liar, Liar Pants on Fire”: A New Benchmark Dataset for Fake News D...原创 2018-10-04 15:28:27 · 2880 阅读 · 1 评论 -
论文列表——text classification
列出自己阅读的text classification论文的列表,以后有时间再整理相应的笔记。阅读价值评分纯粹是基于自己对于文章的理解,标准包括:动机、方法、数据集质量、实验安排、相关工作等,满分为5。列表如下:名称所属会议类型时间阅读价值Recurrent Convolutional Neural Networks for Text ClassificationAAA...原创 2018-10-04 15:57:01 · 2447 阅读 · 1 评论 -
论文列表——stance detection
这学期做了一些和stance detection相关的工作,列出自己阅读论文的列表,部分论文直接列出一些简单的笔记,这些论文可读性不强(方法过于简单,或者论文本身的贡献不在方法上,没有太多记录成笔记的价值…),部分论文会逐步完善,给出简单的阅读笔记。阅读价值评分纯粹是基于自己对于文章的理解,标准包括:动机、方法、数据集质量、实验安排、相关工作等,满分为5(相对评分,即分值高低仅反映论文在以下列表中...原创 2019-01-25 15:44:24 · 2769 阅读 · 0 评论 -
论文列表——sentiment analysis
情感分类属于文本分类的一个应用场景,一般都是人(用户)对某些具体事物(商品、事件)表达某些情感。落地场景是很多的。这学期最开始是做stance detection相关的工作,而其中target-specific stance detection和情感分类中的aspect-based sentiment analysis是很相关的,而AIC的比赛又正好是这个后者,所以顺便调研了下sentiment ...原创 2019-01-25 17:05:35 · 3322 阅读 · 1 评论 -
论文列表——EMNLP 2018
EMNLP 2018去年十一月开完会了,又出了很多文章。根据自己的兴趣点选了一些,平常慢慢读,持续更新到这篇博文。这篇博文记录下这些文章的简要笔记,好的文章会标上“TO BE CONTINUED”,之后会再开单独的博文来做笔记。列表如下:名称类型时间阅读价值笔记Improving Neural Abstractive Document Summarization wit...原创 2019-01-25 18:36:47 · 2772 阅读 · 1 评论 -
论文列表——杂
这篇博文主要是记录平常通过各类渠道(公众号推送、知乎浏览、博客阅读等等)获知的质量较高论文的笔记。可能有各个类别的,可能有几年的经典论文重读,或者是2018年好的科研成果,这里进行简要记录,之后基本都是要单开博文来详细写笔记的。名称来源类型时间阅读价值笔记An Introductory Survey on Attention Mechanisms in NLP Pro...原创 2019-01-25 19:24:23 · 650 阅读 · 0 评论 -
笔记(总结)-神经语言模型和词向量
之前笔记(总结)-统计语言模型主要介绍了统计语言模型。可以看到,最终对句子的建模为(以二元文法为例): P(S)=p(w1)p(w2|w1)...p(wn|wn−1)P(S)=p(w1)p(w2|w1)...p(wn|wn−1)P(S)=p(w_1)p(w_2|w_1)...p(w_n|w_{n-1})核心问题在于如何计算参数p(wi|wi−1)p(wi|wi−1)p(w_i|w_{i-1}...原创 2018-07-09 16:15:36 · 2972 阅读 · 0 评论 -
笔记(总结)-统计语言模型
在自然语言处理的相关问题中,如何表示句子是建模分析的关键。与传统的图像、音频等天然可转化为计算机编码的元素不同,自然语言需要经过复杂编码才能被计算机识别。并且,这种编码是机械式的简单排列,设计初衷是为了解决自然语言的存储问题,编码本身不带有任何语言层面的信息。因此,直接使用自然语言的编码对文字进行转换而后建模是不可靠的,过程中丢失了太多的信息。语言模型正是解决了这样的问题。语言模型有很多种...原创 2018-07-09 11:34:35 · 738 阅读 · 0 评论 -
笔记(总结)-自编码器(Autoencoders)
AE自编码器(下简记为AE)为一类特殊的神经网络,该网络输入维度等于输出维度,通过网络隐层的复杂神经元结构,尝试学习数据的内在特征(pattern),从而达到特征提取、数据降维、生成新数据等多种目的。简单的AE和MLP类似,except输入维度等于输出维度。此时输入数据的标签即为自身,模型的损失函数cost=cost(output, input),用来评估输出是否很好地重新构建了输入。...原创 2017-12-19 23:29:56 · 2113 阅读 · 0 评论 -
笔记(总结)-从过拟合与欠拟合到偏差-方差分解
在用机器学习模型解决实际问题时,时刻离不开“拟合”(fitting)一词,拟合可以看做挖掘样本集与对应标签的规律。模型的预测值和样本的真实标签之间的差异称为“误差”(error),在实际问题中,我们通常在训练集上训练模型,由此产生“训练误差”(training error),然后将模型运用于测试集上,由此产生“泛化误差”(generalization error)。我们希望得到一个泛化误差小的模型原创 2018-01-16 16:36:28 · 1336 阅读 · 0 评论 -
笔记(总结)-XGBoost的前世今生
现今的各类数据挖掘比赛中,决策树模型占据了半壁江山(另外半壁基本就是神经网络模型)。决策树,本质上来说就是通过一系列的“规则”将样本集不断划分归类,最后归为同一类的样本被认为是相似的,赋予相同的预测值。决策树相对于其他机器学习模型来说:可解释较强(规则划分)能够有合理的调参依据(树深度、叶子节点个数等参数概念都很直观)适用于bagging和boosting方式的建模(Random F...原创 2018-01-13 14:17:31 · 1184 阅读 · 0 评论 -
机器学习、数据挖掘相关资源链接(持续补充...)
kaggle社区。全球最大的人工智能比赛社区。比赛众多,且种类难度都有分类。社区中各个比赛下,参赛者会在讨论区积极交流,提供kernel(解决方法)。对初学者也十分友好。 Competitions | Kaggle天池大数据比赛,阿里巴巴主办。很多赛题都来源于企业实际工作中遇到的难题。比赛普遍分为两个阶段,在复赛中取到好成绩的队伍会受邀到杭州现场答辩,对以后求职十分有帮助。缺点是讨论区不活跃,难以原创 2017-12-04 15:31:16 · 460 阅读 · 0 评论 -
kaggle-Porto Seguro's Safe Driver Prediction
Porto Seguro’s Safe Driver Prediction是一道回归预测题,参赛者需要根据数据给出某个保险实例是否会出发赔款的概率。该题有5000+人参加,近期也结赛了。最终我的排名1000+,离前20%只差一点点,有些可惜。不过这一次比赛中还是学到了很多东西。列出参考的notebook链接:EDA: Interactive Porto Insights - A Plot.ly T原创 2017-12-04 14:21:47 · 2307 阅读 · 0 评论 -
笔记-AlphaGo解析
最近在知乎上看到一篇文章,从minimax入手讲AlphaGo。讲解通俗易懂,正好最近算法课BDB也讲了些minimax,学习之。链接如下:浅述:从 Minimax 到 AlphaZero,完全信息博弈之路(1)做的笔记如下:P1-left part P1-right part P2原创 2018-01-13 14:33:58 · 1183 阅读 · 0 评论 -
kaggle-Corporación Favorita Grocery Sales Forecasting
该项比赛1月15日就已经结赛了,但由于之后进入期末,备考花费了大量的时间,没来得及整理相关内容。现在终于有时间好好回顾比赛,并对这次比赛的过程进行记录。Corporación Favorita Grocery Sales Forecasting本次比赛是预测商品销量,给出的训练数据为<单位销量,日期,商店ID,商品ID,推销活动标签>,其中单位销量是待预测值,基本上属于回归...原创 2018-02-08 11:17:31 · 2878 阅读 · 4 评论 -
笔记(总结)-SVM(支持向量机)的理解-1
SVM即支持向量机作为神经网络复兴前的最强大模型,建模和推导有着严密的数学推导作为基础,在训练完成后计算速度也较快,得到了广泛的应用。本文先阐述SVM的基本问题和推导过程,再引入软间隔的SVM,最后引入核函数和求解方法。问题引入考虑简单的二分类问题,我们想找一个“最好”的超平面来分隔两类样本。可以看到,在样本点线性可分的情况下,能够找到多个超平面。但其中黑色超平面直观上来看是最合理的,...原创 2018-02-02 13:20:25 · 620 阅读 · 0 评论 -
笔记(总结)-SVM(支持向量机)的理解-4
前三篇主要是介绍SVM的原理。最初SVM的原问题是凸二次优化问题,有现成的算法可以求解,费尽周折转换到对偶问题,一是在对偶问题形势下可以使用核函数,二是对偶问题我们可以高效求解。本篇主要介绍如何求解SVM。SMO:Sequential Minimal OptimizationCoordinate Ascent(坐标上升法)回到我们的对偶问题: maxW(α)=∑iαi−12∑...原创 2018-02-03 13:35:00 · 465 阅读 · 0 评论 -
笔记(总结)-SVM(支持向量机)的理解-2
上一篇我们讨论了SVM的建模由来与推导过程,最终得出了SVM的对偶问题和解的形式,不过这都基于一个重要前提,即样本集是线性可分的。为了解决线性不可分情况下的分类问题,我们引入soft margin SVM,即软间隔SVM。为了处理上述情况,我们不再要求样本集全部位于“楚河汉界”外,放宽限制,允许数据点进入“楚河汉界”甚至错分,引入松弛变量ξξ\xi,如下所示: 此时对应的约束条件为:...原创 2018-02-02 14:29:23 · 364 阅读 · 0 评论 -
笔记(总结)-SVM(支持向量机)的理解-3
上篇讲述的Soft Margin SVM是为了解决线性不可分的问题,它解决问题的逻辑是通过允许一部分样本分得不那么准确(进入“楚河汉界”)甚至错分,使得在绝大多数样本能够正确地线性可分。本篇引入核函数(kernel),从另一个思维角度来解决线性不可分问题。问题引入当样本在某个特征空间不可分时,可以通过将样本映射到另一个特征空间,在该空间中样本分布满足线性可分条件,再使用SVM进行学习分...原创 2018-02-03 10:00:56 · 469 阅读 · 0 评论 -
笔记(总结)-利用GMM和EM算法解决聚类问题
对Gaussian Mixture Model和Expectation Maximization算法一直以来了解不多,一来直接使用这两个方法的场景少,二来初看这两个算法确实有些一头雾水,不太理解为什么要这么做。上学期的课又涉及到了这部分,还是咬牙把这块给啃了下来,结合“周志华西瓜书”,在聚类场景下对这两部分做下总结。高斯混合(Mixture of Gaussian)nnn维随机变量xx...原创 2018-02-09 17:10:01 · 1825 阅读 · 0 评论 -
笔记(总结)-PCA(主成分分析)
主成分分析是一种特征抽取手段,通过将样本从原始空间映射到低维空间实现特征数量的减少,而低维空间中某一维度实际上是原始空间的一种“杂糅”表示。在之前的博客中提到过参考链接,由于PCA涉及的数学手段包括矩阵、特征值和特征向量,参考笔记-矩阵与特征值这一篇,对其有一定理解后再来看PCA算法就比较清晰了。首先给出PCA算法:对所有样本进行中心化:xi←xi−1m∑mi=1xixi←xi−1m...原创 2018-02-07 10:50:09 · 818 阅读 · 0 评论 -
机器学习面试题-索引
做面试题是一个很好的回顾所学知识的方式。通常,面试官都有着非常扎实的基础和实践经验,提出的问题能更切中算法、模型的本质。通过面试题来检验自己的学习效果,是否对一个问题理解透彻,也能为将来可能的面试提前做一些准备。本文对知乎专栏BAT机器学习面试1000题下的内容进行了总结索引,方便之后的查阅使用。根据完成情况持续更新。以下给出专栏中每个链接下的问题,并打上标签。BAT机器学习面试1...原创 2018-02-27 11:00:55 · 697 阅读 · 0 评论 -
论文列表——NAACL 2019
最近NAACL-2019接收列表出了,列出感兴趣的paper,供之后阅读:名称类型关键字阅读价值笔记Deep Adversarial Learning for NLPtutorialTransfer Learning in Natural Language ProcessingtutorialApplications of Natural L...原创 2019-03-06 12:36:36 · 3509 阅读 · 1 评论