ujn784-优快云博客

原创 CycleGAN学习

学习笔记是根据李宏毅老师的CycleGAN课：（https://www.youtube.com/watch?v=wulqhgnDr7E）整理的。从非成对数据中学习，指的是我们有部分特征X和部分标签y，这些X和y并非完全一一匹配，学习目标是通过多层神经网络学习从X到y的映射关系。这种任务有区别于psudo labelling和 back translation问题, 这两类问题对应的网络在训练过程中仍需要一定的标签，可看作是semi-supervised learning问题，它的训练资料中仍包括了匹配的

2021-07-08 23:07:22 340 2

原创 f-GAN学习笔记

f-GAN作为GAN的变种之一，它在真实数据的分布与生成数据的分布之间DIvergence（差距）的测量方面做出了改进，即使用F-Divergence来代替，其中F的意为函数function，它可以是KL(进而构成KL散度)、JS(进而构成JS散度)、W(进而构成Wasserstein散度)等等。其通式如下：Df(P∣∣Q)=∫xq(x)f(p(x)q(x))dxD_f(P||Q)=\int_xq(x)f(\frac{p(x)}{q(x)})dxDf(P∣∣Q)=∫xq(x)f(q(x)p(x))d

2021-07-06 14:57:36 504

原创对KL散度的理解

散度，divergence，指的是向量分析中的一个算子，它将向量空间上的一个向量场对应到标量场上，通过计算散度我们能够知道场中该点处向量的方向，属于微积分理论下的内容。而KL散度与散度这一概念并无太大关联（属于信息学、统计学下的内容），它又可叫做相对熵。定义KL(P∣∣Q)=Ex∼P(x)log(fQ(x))KL(P||Q)=E_{x \sim P(x)}log(f_Q(x))KL(P∣∣Q)=Ex∼P(x)log(fQ(x))是对两个概率分布 P 和 Q 差别的非对称性度量，具体地，使用基于

2021-06-27 23:43:44 329

原创 2021-03-28

learning accuracy和loss不一致（loss低的时候，accuracy不够高）的可能原因：loss和学习目标不一致关注细节，如validation loss和training loss: 如果一开始时validation loss和training loss非常接近，突然在某一个epoch后两个loss都有明显下降，并且是consistent的，则考虑这里会有一个很有用的变量；若training loss有明显下降而validation loss没有，则考虑两个数据集分割有偏差或特征的选.

2021-03-28 21:24:06 190

原创 2021.3.24 pytorch lightning/tabnet code解读

深度学习代码文章有baseline，自己先实现一遍，与之比较。打印实现过程中的细节，以检查代码中的错误常见的代码错误：gradient clippingtoy sample要加噪声，增强稳定性认识清模型适合做的事交叉效应pytorch lightning: 在pytorch在又包裹一层，相比pytorch而言不需要考虑对所实现硬件如GPU、TPU。用不同个数的CPU去读取数据，效率不同Adam为什么是有状态的？为了更新vector，之前计算得的一阶矩、二阶矩等要存储下来，在不同阶段，存储

2021-03-24 22:02:28 681

原创毕业设计-模拟数据集生成笔记

使用的数据及工具单细胞基因表达普数据，行为barcodes（测序技术检测得到的样本，约有1000～3000个），列为基因（不同的基因看作不同的变量，个数从2000～50000不等）。使用的工具为R splatter包。目的为了探究算法模型在不同数据集上的性能，生成多组模拟数据用于拟合模型。模拟数据生成的基本思路如下：首先从宏观角度，我们将数据分为**『平衡数据』和『非平衡数据』两个cohort，前者每个类别细胞个数相等，后者每类细胞个数不相等，但保证两个cohort中的细胞总数相同。其次，对于每一co

2021-03-22 00:02:44 975 1

原创强化学习笔记

大致理解在某一时刻，机器人观测到环境中的某一个现象，根据该现象做一个动作，之后环境会给机器人一个反馈。我们找到一个最好的策略，使得我们找到最大的累积收益。数学表达强化学习的过程即一个马尔科夫决策过程S: 一系列状态A: 一系列动作P: 转移概率R: 奖励函数Policy：π\piπ(a|s)=P[AtA_tAt=a|StS_tSt=S], 即最核心决策步骤，在xx状态下做xx动作所能获得的回报综上，给定一个MDP(morkov decision process马尔科夫决策过程).

2021-03-21 21:06:07 83

原创 2021.3.20听课笔记-TabNet,pytorch

深度学习用于表格结构数据的建模，效果一般比较差，但有一个例外的情况是TabNet（TabNet的参数可以调整以提高结构化数据建模的精确度）树模型分割节点的选择 pre sort method. nlog(n)排序算法。分箱后，再去找分位点就不精确了；但实际中它的影响很小。同一个箱子内的点的梯度一样，则减小了梯度计算的复杂度理论上推导；实际上必须去试（面试中被允许的说法为：在实践中发现XXX）判断数据集是否具有权威性，才能比较不同算法的优劣TabNetpoker hand dataset：是确.

2021-03-20 21:59:59 1526

原创 cs224n-1wordvec1

meaning 语意一个词语、词汇所代表的的含义一个人使用语言、标志符号想要表达的含义一件艺术品、一篇文章想要传达的含义如何用计算机获得可用的语意WordNet包括单词的一系列同义词、超词（定义性词汇）的词典缺点：无法体现同义词之间的细微差异、部分词语的解释已经过时、主观性强、劳力维护成本大、不能准确地计算词语间的相似性One-hot vector把单词看作离散的符号，以整个词典中单词数量为维度，仅在当前单词对应的维度上赋值1，其余为0缺点：任意两个单词间是正交的（即无

2021-03-08 21:05:47 117

原创堆排序——原理详解+代码实践

预备知识堆定义堆（英语：heap），是计算机科学中的一种特别的完全二叉树，它满足以下性质：给定堆中任意节点P和C，若P是C的母节点，那么P的值总是小于等于（或大于等于）其子节点C的值。除最底层，其它层的节点都填满，且最底层通过从左往右顺序添加元素。逻辑结构为树，存储结构为数组。分类根据父节点和儿子节点之间的大小关系，可分为小根堆和大根堆（如下图）：小跟堆：给定堆中任意节点P和C，若P是C的母节点，那么P的值总是小于等于其子节点C的值大根堆：给定堆中任意节点P和C，若P是C的母节点，

2021-02-26 21:45:01 282

原创 Jar包生成及编译运行

完成xxx.java文件的编写编译xxx.java, 生成xxx.class文件 javac test.jar xxx.class初步打包成jar文件jar cvf test.jar xxx.class由于直接从xxx.class生成的test.jar文件缺少识别主类，故解压test.jar文件，在其中的MANIFEST.MF文件中添加主类标识即jar -xvf test.jarsudo vim MANIFEST.MF在MANIFEST.MF文件内部最后一行添加主类名称：.

2021-01-18 12:34:37 787

转载进程与线程

1.进程进程是资源调度的基本单位。进程控制块PCB用于描述进程的基本信息和运行状态。创建、撤销进程，本质上都是对PCB的操作。不同进程可并发执行。1.1进程的三种状态及切换就绪态：作业等待被调度运行态：进程正在运行阻塞态：作业正在等待资源三种状态的切换：就绪态和运行态可双向切换，就绪态的进程通过获得CPU时间变为运行态，运行态的进程在CPU时间用完后转为就绪态。此外，运行态的进程由于发生IO请求而转为阻塞态，阻塞态由于获得等待的资源而转为就绪态。1.2进程调度算法先来先服务算法FCFS：非

2021-01-14 23:37:09 76

原创联想拯救者Y7000P（独显） WIN10 + Ubuntu 18.04 双系统安装

从早上九点开始学习如何装双系统，到下午五点成功安装结束（或许还没成功orz, 或许ubuntu或二者兼容之后还会出问题）。总体来说比较顺利，这都受益于各位博友的帮助。但这也是让我感到心虚的地方，因为很多错误都是在我未尝试任何解决办法的情况下自己修正的…比如，ubuntu第一次装好后浏览器出了问题不能用，本来打算进win删了分区重来一遍的，但第二次进ubuntu的时候又莫名奇妙的好了…总之，进行的太顺利让人不安，或许日后使用还会出许多bug。为了将来好debug，在这里记录下本次安装全流程，以便查阅。主要

2020-12-12 18:08:47 2661

原创 spark学习笔记（3）

数据分区获取数据分区调用RDD数据的partitioner属性，得到scala.Option对象，即表示scala中用来存放可能存在的对象的容器类。val pairs = sc.parallelize(list((1,1), (2,2), (3,3))) // 初始化原始RDD数据pairs.partitioner // output: Option[spark.Partitioner] = None//调用partitioner方法，查看该RDD分区情况，得到结果未分区val part

2020-12-06 10:44:23 96

原创 Spark学习笔记(2)

最常见单词计数问题val input = sc.textFile(file_path)val wordsRDD = input.map(x => x.split(" "))# method 1val result = wordsRDD.map(x => (x, 1)).reduceByKey((x, y) => x + y)# method 2val result = wordsRDD.countByValue()combineByKey的工作原理当第一次在分区内.

2020-11-16 08:37:18 109

原创 Spark学习笔记(1)

隐式转换导入import ort.apache.spark.SparkContext._执行隐式转换，理解为：RDD根据其所存储信息类型的不同，为方便后续执行特定方法，隐式转化为对应类型的RDD（数值型或键值对型）。持久化缓存当需要多次使用同一个RDD，先对RDD进行持久化，即调用persist()将持久化RDD加入缓存import ort.apache.spark.storage.StroageLevelval result = input.map(x => x * x)r.

2020-11-15 10:04:21 156

原创 scala-spark线性代数

DenseVector比较大小（其实也不能叫比大小吧，而应该是根据条件筛选符合的元素）DenseVector a(1,2,3) 与 DenseVector b(1,4,1)比较大小：println(a :== b) # output: BitVector(0)println(a :> b) # output: BitVector(2)println(a :< b) # output: BitVector(1)println(a :<= b) # output: BitVector

2020-11-14 10:03:07 118

原创 9-7 ~ 9-27做论文全过程的反思

实验是在八月底做完的，之后9.6周日的晚上和导师汇报，导师说可以开始写论文了，于是便开始了整理文献、憋论文、latex排版编辑的过程。本来预计一周写，一周改，然后交给付费编辑润色，就可以投出去了；结果却是花了一周的时间写，两周的时间改，刚刚才交付给编辑润色，写文章花了足足三周时间，超出了预期。这里对做一篇文章出来的全过程，即包括前期（阅读文献、设计实验方案）+中期（编码）+后期（整理文献、写论文、排版美化）三个阶段所做的事情做一点反思，尝试找到优化做事方式、提高效率、提升科研质量的方法。前期（阅读文献、

2020-09-27 22:21:18 232

weixin_42365868的博客