
机器学习
文章平均质量分 52
ujn784
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
CycleGAN学习
学习笔记是根据李宏毅老师的CycleGAN课:(https://www.youtube.com/watch?v=wulqhgnDr7E)整理的。从非成对数据中学习,指的是我们有部分特征X和部分标签y,这些X和y并非完全一一匹配,学习目标是通过多层神经网络学习从X到y的映射关系。这种任务有区别于psudo labelling和 back translation问题, 这两类问题对应的网络在训练过程中仍需要一定的标签,可看作是semi-supervised learning问题,它的训练资料中仍包括了匹配的原创 2021-07-08 23:07:22 · 364 阅读 · 2 评论 -
f-GAN学习笔记
f-GAN作为GAN的变种之一,它在真实数据的分布与生成数据的分布之间DIvergence(差距)的测量方面做出了改进,即使用F-Divergence来代替,其中F的意为函数function,它可以是KL(进而构成KL散度)、JS(进而构成JS散度)、W(进而构成Wasserstein散度)等等。其通式如下:Df(P∣∣Q)=∫xq(x)f(p(x)q(x))dxD_f(P||Q)=\int_xq(x)f(\frac{p(x)}{q(x)})dxDf(P∣∣Q)=∫xq(x)f(q(x)p(x))d原创 2021-07-06 14:57:36 · 529 阅读 · 0 评论 -
对KL散度的理解
散度,divergence,指的是向量分析中的一个算子,它将向量空间上的一个向量场对应到标量场上,通过计算散度我们能够知道场中该点处向量的方向,属于微积分理论下的内容。而KL散度与散度这一概念并无太大关联(属于信息学、统计学下的内容),它又可叫做相对熵。定义KL(P∣∣Q)=Ex∼P(x)log(fQ(x))KL(P||Q)=E_{x \sim P(x)}log(f_Q(x))KL(P∣∣Q)=Ex∼P(x)log(fQ(x))是对两个概率分布 P 和 Q 差别的非对称性度量,具体地,使用基于原创 2021-06-27 23:43:44 · 362 阅读 · 0 评论 -
2021-03-28
learning accuracy和loss不一致(loss低的时候,accuracy不够高)的可能原因:loss和学习目标不一致关注细节,如validation loss和training loss: 如果一开始时validation loss和training loss非常接近,突然在某一个epoch后两个loss都有明显下降,并且是consistent的,则考虑这里会有一个很有用的变量;若training loss有明显下降而validation loss没有,则考虑两个数据集分割有偏差或特征的选.原创 2021-03-28 21:24:06 · 208 阅读 · 0 评论 -
2021.3.24 pytorch lightning/tabnet code解读
深度学习代码文章有baseline,自己先实现一遍,与之比较。打印实现过程中的细节,以检查代码中的错误常见的代码错误:gradient clippingtoy sample要加噪声,增强稳定性认识清模型适合做的事交叉效应pytorch lightning: 在pytorch在又包裹一层,相比pytorch而言不需要考虑对所实现硬件如GPU、TPU。用不同个数的CPU去读取数据,效率不同Adam为什么是有状态的?为了更新vector,之前计算得的一阶矩、二阶矩等要存储下来,在不同阶段,存储原创 2021-03-24 22:02:28 · 717 阅读 · 0 评论 -
强化学习笔记
大致理解在某一时刻,机器人观测到环境中的某一个现象,根据该现象做一个动作,之后环境会给机器人一个反馈。我们找到一个最好的策略,使得我们找到最大的累积收益。数学表达强化学习的过程即一个马尔科夫决策过程S: 一系列状态A: 一系列动作P: 转移概率R: 奖励函数Policy:π\piπ(a|s)=P[AtA_tAt=a|StS_tSt=S], 即最核心决策步骤,在xx状态下做xx动作所能获得的回报综上,给定一个MDP(morkov decision process马尔科夫决策过程).原创 2021-03-21 21:06:07 · 96 阅读 · 0 评论 -
2021.3.20听课笔记-TabNet,pytorch
深度学习用于表格结构数据的建模,效果一般比较差,但有一个例外的情况是TabNet(TabNet的参数可以调整以提高结构化数据建模的精确度)树模型分割节点的选择 pre sort method. nlog(n)排序算法。分箱后,再去找分位点就不精确了;但实际中它的影响很小。同一个箱子内的点的梯度一样,则减小了梯度计算的复杂度理论上推导;实际上必须去试(面试中被允许的说法为:在实践中发现XXX)判断数据集是否具有权威性,才能比较不同算法的优劣TabNetpoker hand dataset:是确.原创 2021-03-20 21:59:59 · 1588 阅读 · 0 评论 -
cs224n-1wordvec1
meaning 语意一个词语、词汇所代表的的含义一个人使用语言、标志符号想要表达的含义一件艺术品、一篇文章想要传达的含义如何用计算机获得可用的语意WordNet包括单词的一系列同义词、超词(定义性词汇)的词典缺点:无法体现同义词之间的细微差异、部分词语的解释已经过时、主观性强、劳力维护成本大、不能准确地计算词语间的相似性One-hot vector把单词看作离散的符号,以整个词典中单词数量为维度,仅在当前单词对应的维度上赋值1,其余为0缺点:任意两个单词间是正交的(即无原创 2021-03-08 21:05:47 · 126 阅读 · 0 评论 -
KMeans算法实现
import numpy as npdef load_data(file_name):f = open(file_name)data = []for line in f.readlines():row = []lines = line.strip().split(’\t’)for x in lines:row.append(float(x))data.append(row)f....原创 2019-06-01 11:51:25 · 286 阅读 · 0 评论