- 博客(22)
- 收藏
- 关注
原创 CycleGAN学习
学习笔记是根据李宏毅老师的CycleGAN课:(https://www.youtube.com/watch?v=wulqhgnDr7E)整理的。从非成对数据中学习,指的是我们有部分特征X和部分标签y,这些X和y并非完全一一匹配,学习目标是通过多层神经网络学习从X到y的映射关系。这种任务有区别于psudo labelling和 back translation问题, 这两类问题对应的网络在训练过程中仍需要一定的标签,可看作是semi-supervised learning问题,它的训练资料中仍包括了匹配的
2021-07-08 23:07:22
340
2
原创 f-GAN学习笔记
f-GAN作为GAN的变种之一,它在真实数据的分布与生成数据的分布之间DIvergence(差距)的测量方面做出了改进,即使用F-Divergence来代替,其中F的意为函数function,它可以是KL(进而构成KL散度)、JS(进而构成JS散度)、W(进而构成Wasserstein散度)等等。其通式如下:Df(P∣∣Q)=∫xq(x)f(p(x)q(x))dxD_f(P||Q)=\int_xq(x)f(\frac{p(x)}{q(x)})dxDf(P∣∣Q)=∫xq(x)f(q(x)p(x))d
2021-07-06 14:57:36
504
原创 对KL散度的理解
散度,divergence,指的是向量分析中的一个算子,它将向量空间上的一个向量场对应到标量场上,通过计算散度我们能够知道场中该点处向量的方向,属于微积分理论下的内容。而KL散度与散度这一概念并无太大关联(属于信息学、统计学下的内容),它又可叫做相对熵。定义KL(P∣∣Q)=Ex∼P(x)log(fQ(x))KL(P||Q)=E_{x \sim P(x)}log(f_Q(x))KL(P∣∣Q)=Ex∼P(x)log(fQ(x))是对两个概率分布 P 和 Q 差别的非对称性度量,具体地,使用基于
2021-06-27 23:43:44
329
原创 2021-03-28
learning accuracy和loss不一致(loss低的时候,accuracy不够高)的可能原因:loss和学习目标不一致关注细节,如validation loss和training loss: 如果一开始时validation loss和training loss非常接近,突然在某一个epoch后两个loss都有明显下降,并且是consistent的,则考虑这里会有一个很有用的变量;若training loss有明显下降而validation loss没有,则考虑两个数据集分割有偏差或特征的选.
2021-03-28 21:24:06
190
原创 2021.3.24 pytorch lightning/tabnet code解读
深度学习代码文章有baseline,自己先实现一遍,与之比较。打印实现过程中的细节,以检查代码中的错误常见的代码错误:gradient clippingtoy sample要加噪声,增强稳定性认识清模型适合做的事交叉效应pytorch lightning: 在pytorch在又包裹一层,相比pytorch而言不需要考虑对所实现硬件如GPU、TPU。用不同个数的CPU去读取数据,效率不同Adam为什么是有状态的?为了更新vector,之前计算得的一阶矩、二阶矩等要存储下来,在不同阶段,存储
2021-03-24 22:02:28
681
原创 毕业设计-模拟数据集生成笔记
使用的数据及工具单细胞基因表达普数据,行为barcodes(测序技术检测得到的样本,约有1000~3000个),列为基因(不同的基因看作不同的变量,个数从2000~50000不等)。使用的工具为R splatter包。目的为了探究算法模型在不同数据集上的性能,生成多组模拟数据用于拟合模型。模拟数据生成的基本思路如下:首先从宏观角度,我们将数据分为**『平衡数据』和『非平衡数据』两个cohort,前者每个类别细胞个数相等,后者每类细胞个数不相等,但保证两个cohort中的细胞总数相同。其次,对于每一co
2021-03-22 00:02:44
975
1
原创 强化学习笔记
大致理解在某一时刻,机器人观测到环境中的某一个现象,根据该现象做一个动作,之后环境会给机器人一个反馈。我们找到一个最好的策略,使得我们找到最大的累积收益。数学表达强化学习的过程即一个马尔科夫决策过程S: 一系列状态A: 一系列动作P: 转移概率R: 奖励函数Policy:π\piπ(a|s)=P[AtA_tAt=a|StS_tSt=S], 即最核心决策步骤,在xx状态下做xx动作所能获得的回报综上,给定一个MDP(morkov decision process马尔科夫决策过程).
2021-03-21 21:06:07
83
原创 2021.3.20听课笔记-TabNet,pytorch
深度学习用于表格结构数据的建模,效果一般比较差,但有一个例外的情况是TabNet(TabNet的参数可以调整以提高结构化数据建模的精确度)树模型分割节点的选择 pre sort method. nlog(n)排序算法。分箱后,再去找分位点就不精确了;但实际中它的影响很小。同一个箱子内的点的梯度一样,则减小了梯度计算的复杂度理论上推导;实际上必须去试(面试中被允许的说法为:在实践中发现XXX)判断数据集是否具有权威性,才能比较不同算法的优劣TabNetpoker hand dataset:是确.
2021-03-20 21:59:59
1526
原创 cs224n-1wordvec1
meaning 语意一个词语、词汇所代表的的含义一个人使用语言、标志符号想要表达的含义一件艺术品、一篇文章想要传达的含义如何用计算机获得可用的语意WordNet包括单词的一系列同义词、超词(定义性词汇)的词典缺点:无法体现同义词之间的细微差异、部分词语的解释已经过时、主观性强、劳力维护成本大、不能准确地计算词语间的相似性One-hot vector把单词看作离散的符号,以整个词典中单词数量为维度,仅在当前单词对应的维度上赋值1,其余为0缺点:任意两个单词间是正交的(即无
2021-03-08 21:05:47
117
原创 堆排序——原理详解+代码实践
预备知识堆定义堆(英语:heap),是计算机科学中的一种特别的完全二叉树,它满足以下性质:给定堆中任意节点P和C,若P是C的母节点,那么P的值总是小于等于(或大于等于)其子节点C的值。除最底层,其它层的节点都填满,且最底层通过从左往右顺序添加元素。逻辑结构为树,存储结构为数组。分类根据父节点和儿子节点之间的大小关系,可分为小根堆和大根堆(如下图):小跟堆:给定堆中任意节点P和C,若P是C的母节点,那么P的值总是小于等于其子节点C的值大根堆:给定堆中任意节点P和C,若P是C的母节点,
2021-02-26 21:45:01
282
原创 Jar包生成及编译运行
完成xxx.java文件的编写编译xxx.java, 生成xxx.class文件 javac test.jar xxx.class初步打包成jar文件jar cvf test.jar xxx.class由于直接从xxx.class生成的test.jar文件缺少识别主类,故解压test.jar文件,在其中的MANIFEST.MF文件中添加主类标识即jar -xvf test.jarsudo vim MANIFEST.MF在MANIFEST.MF文件内部最后一行添加主类名称:.
2021-01-18 12:34:37
787
转载 进程与线程
1.进程进程是资源调度的基本单位。进程控制块PCB用于描述进程的基本信息和运行状态。创建、撤销进程,本质上都是对PCB的操作。 不同进程可并发执行。1.1进程的三种状态及切换就绪态:作业等待被调度运行态:进程正在运行阻塞态:作业正在等待资源三种状态的切换:就绪态和运行态可双向切换,就绪态的进程通过获得CPU时间变为运行态,运行态的进程在CPU时间用完后转为就绪态。此外,运行态的进程由于发生IO请求而转为阻塞态,阻塞态由于获得等待的资源而转为就绪态。1.2进程调度算法先来先服务算法FCFS:非
2021-01-14 23:37:09
76
原创 联想拯救者Y7000P(独显) WIN10 + Ubuntu 18.04 双系统安装
从早上九点开始学习如何装双系统,到下午五点成功安装结束(或许还没成功orz, 或许ubuntu或二者兼容之后还会出问题)。总体来说比较顺利,这都受益于各位博友的帮助。但这也是让我感到心虚的地方,因为很多错误都是在我未尝试任何解决办法的情况下自己修正的…比如,ubuntu第一次装好后浏览器出了问题不能用,本来打算进win删了分区重来一遍的,但第二次进ubuntu的时候又莫名奇妙的好了…总之,进行的太顺利让人不安,或许日后使用还会出许多bug。为了将来好debug,在这里记录下本次安装全流程,以便查阅。主要
2020-12-12 18:08:47
2661
原创 spark学习笔记(3)
数据分区获取数据分区调用RDD数据的partitioner属性,得到scala.Option对象,即表示scala中用来存放可能存在的对象的容器类。val pairs = sc.parallelize(list((1,1), (2,2), (3,3))) // 初始化原始RDD数据pairs.partitioner // output: Option[spark.Partitioner] = None//调用partitioner方法,查看该RDD分区情况,得到结果未分区val part
2020-12-06 10:44:23
96
原创 Spark学习笔记(2)
最常见单词计数问题val input = sc.textFile(file_path)val wordsRDD = input.map(x => x.split(" "))# method 1val result = wordsRDD.map(x => (x, 1)).reduceByKey((x, y) => x + y)# method 2val result = wordsRDD.countByValue()combineByKey的工作原理当第一次在分区内.
2020-11-16 08:37:18
109
原创 Spark学习笔记(1)
隐式转换导入import ort.apache.spark.SparkContext._执行隐式转换,理解为:RDD根据其所存储信息类型的不同,为方便后续执行特定方法,隐式转化为对应类型的RDD(数值型或键值对型)。持久化缓存当需要多次使用同一个RDD,先对RDD进行持久化,即调用persist()将持久化RDD加入缓存import ort.apache.spark.storage.StroageLevelval result = input.map(x => x * x)r.
2020-11-15 10:04:21
156
原创 scala-spark线性代数
DenseVector比较大小(其实也不能叫比大小吧,而应该是根据条件筛选符合的元素)DenseVector a(1,2,3) 与 DenseVector b(1,4,1)比较大小:println(a :== b) # output: BitVector(0)println(a :> b) # output: BitVector(2)println(a :< b) # output: BitVector(1)println(a :<= b) # output: BitVector
2020-11-14 10:03:07
118
原创 9-7 ~ 9-27做论文全过程的反思
实验是在八月底做完的,之后9.6周日的晚上和导师汇报,导师说可以开始写论文了,于是便开始了整理文献、憋论文、latex排版编辑的过程。本来预计一周写,一周改,然后交给付费编辑润色,就可以投出去了;结果却是花了一周的时间写,两周的时间改,刚刚才交付给编辑润色,写文章花了足足三周时间,超出了预期。这里对做一篇文章出来的全过程,即包括前期(阅读文献、设计实验方案)+中期(编码)+后期(整理文献、写论文、排版美化)三个阶段所做的事情做一点反思,尝试找到优化做事方式、提高效率、提升科研质量的方法。前期(阅读文献、
2020-09-27 22:21:18
232
原创 KMeans算法实现
import numpy as npdef load_data(file_name):f = open(file_name)data = []for line in f.readlines():row = []lines = line.strip().split(’\t’)for x in lines:row.append(float(x))data.append(row)f....
2019-06-01 11:51:25
271
原创 c++ primer plus 第九章习题
golf.hpp//golf.hppconst int len=40;struct golf{ char fullname[len]; int handicap;};void setgolf(golf &amp; g, const char * name, int hc);int setgolf(golf &amp; g);void handicap(golf...
2019-01-30 17:24:00
339
1
原创 c++ primer plus 第八章习题
C++ primer plus 第八章习题#include&lt;iostream&gt;using namespace std;void show(const char * a, int b=0);void show(const char * a, int b){ static int uses = 0; ++uses; cout &lt;&lt...
2019-01-30 12:42:06
173
原创 c++ primer plus 第七章习题
C++ primer plus 第七章习题#include &amp;lt;iostream&amp;gt;using namespace std;float sum(int,int);int main(){ int a,b; cout&amp;lt;&amp;lt;&quot;Please enter 2 numbers: \n&quot;; cin
2019-01-24 13:58:17
287
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人