自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(48)
  • 收藏
  • 关注

原创 量化学习-02

投资是为了获得可能但并不确定的未来值(Future value)而作出牺牲确定的现值(Present value)的行为。(William F.Sharpe,1990年获得诺贝尔经济学奖)投资有三大特点投资的时间性:资金具有时间价值,是牺牲当前消费(Reduced current consumption)和计划未来消费(Planned later consumption)之间的权衡投资的不确定性(Uncertainty):也即风险性,如果证券没有风险是否意味着没有收益?

2024-10-20 00:57:14 715

原创 SQL-高级处理

窗口函数也称为OLAP函数。OLAP 是 OnLine AnalyticalProcessing 的简称,意思是对数据库数据进行实时分析处理。为了便于理解,称之为 窗口函数。常规的SELECT语句都是对整张表进行查询,而窗口函数可以让我们有选择的去某一部分数据进行汇总、计算和排序。

2022-10-22 22:53:04 235

原创 SQL-集合运算

集合在数学领域表示“各种各样的事物的总和”, 在数据库领域表示记录的集合. 具体来说,表、视图和查询的执行结果都是记录的集合, 其中的元素为表或者查询结果中的每一行。在标准 SQL 中, 分别对检索结果使用 UNION, INTERSECT, EXCEPT 来将检索结果进行并,交和差运算, 像UNION,INTERSECT, EXCEPT这种用来进行集合运算的运算符称为集合运算符。

2022-10-19 23:42:34 382

原创 SQL-复杂一点的查询

子查询指一个查询语句嵌套在另一个查询语句内部的查询,这个特性从 MySQL 4.1 开始引入,在 SELECT 子句中先计算子查询,子查询结果作为外层另一个查询的过滤条件,查询可以基于一个表或者多个表。CASE 表达式是函数的一种。是 SQL 中数一数二的重要功能

2022-10-16 22:42:01 263

原创 SQL-基础查询与排序

从表中选取数据时需要使用SELECT语句,也就是只从表中选出(SELECT)必要数据的意思。通过SELECT语句查询并选取出必要数据的过程称为匹配查询或查询(query)。基本SELECT语句包含了SELECT和FROM两个子句(clause)。

2022-10-13 23:51:21 180

原创 SQL-安装与初识数据库

数据库安装和数据库基本介绍

2022-10-12 00:52:00 216

原创 强化学习-DDPG算法

强化学习

2022-09-04 02:23:25 1057

原创 强化学习-稀疏奖励及模仿学习

强化学习稀疏奖励及模仿学习

2022-09-01 01:33:44 504

原创 强化学习-DQN和AC算法

DQN和AC算法

2022-08-30 00:43:47 1620

原创 强化学习-策略梯度和PPO

强化学习中的策略梯度和PPO

2022-08-26 00:17:30 1360

原创 强化学习-task2

强化学习中的马尔可夫决策过程和表格型方法

2022-08-21 23:35:12 128

原创 强化学习 -概述

强化学习简介

2022-08-18 01:52:51 870

原创 pytorch学习

Pytorch组成结构基本配置,数据读入,模型构建,损失函数,优化器,训练与评估,可视化进入深度学习需要采用GPU进行计算,采用这些结构进行组合训练,并进行预测可视化工具tensorboardX官方demoimport torchimport torchvision.utils as vutilsimport numpy as npimport torchvision.models as modelsfrom torchvision import datasetsfrom tensor

2021-10-19 16:58:06 126

原创 MIT 6.00 Introduction to Computer Science and Programming learning notes

Lec 4主要讲的是这两个部分Decomposition:分解Abstraction:抽象因为在面对写10万行和100万行以上代码的时候,会有很多困扰,应用这两个部分可以很好的解决问题而定义functions以及modules,可以隐藏计算的细节,在使用的时候不需要看细节,只要知道输入什么参数即可,课程利用解数学题的方法来讲解,是算农场里有鸡和猪,一共有20个头,56只腿,解有多少只鸡和多少头猪一般我们可以采用二元一次方程组进行解,用代码解可以把所有的可能性都列出来课程里提到元组和列表很像,

2021-09-24 11:38:46 244

原创 集成学习-task7-Stacking

Stackingstacking:stacking是一种分层模型集成框架。以两层为例,第一层由多个基学习器组成,其输入为原始训练集,第二层的模型则是以第一层基学习器的输出作为特征加入训练集进行再训练,从而得到完整的stacking模型。stacking的方法在各大数据挖掘比赛上都很风靡,模型融合之后能够小幅度的提高模型的预测准确度。利用多个模型进行训练,再用各个模型进行融合,在运用在比赛中,可以提高分数为什么做stacking之后,准确率反而降低了?1、数据集小2、代码问题3、某个模型表现差,影

2021-09-01 14:46:08 235

原创 集成学习-task6-Boosting

Boosting1、Adaboost的基本思路Adaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)2、Adaboost与GBDT的联系与区别3、Boosting与Bagging的区别,以及如何提升模型的精度4、使用基本分类模型和Boosting提升的模型,并画出他们的决策边界5、尝试使用XGboost模型完成一个具体的分类任务,并进行调参...

2021-08-30 00:35:37 196

原创 集成学习-task5-bagging

Bagging什么是bootstraps自助采样(bootstrap),是有放回的从数据集中进行采样,意味着同样的一个样本可能被多次进行采样  (1) 采用重抽样技术从原始样本中抽取一定数量(自己给定)的样本,此过程允许重复抽样。  (2) 根据抽出的样本计算给定的统计量T。  (3) 重复上述N次(一般大于1000),得到N个统计量T。  (4) 计算上述N个统计量T的样本方差,得到统计量的方差。bootstraps与bagging的联系bagging是指从训练集从进行子抽样组成每个基模型

2021-08-26 16:21:59 404

原创 李宏毅深度学习-总结

学习内容机器学习介绍误差和梯度下降深度学习介绍和反向传播机制网络设计的技巧卷积神经网络总结观看深度学习的内容,通过学习加强了自身深度学习的知识,下一步继续学习相关内容,加强机器学习的实践引用链接: Datawhale-李宏毅深度学习...

2021-07-25 22:02:03 289

原创 李宏毅深度学习task6

CNN-卷积神经网络卷积神经网络(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。 卷积神经网络由一个或多个卷积层和顶端的全连通层(对应经典的神经网络)组成,同时也包括关联权重和池化层(pooling layer)CNN 解决了什么问题?在 CNN 出现之前,图像对于人工智能来说是一个难题,有2个原因:1、图像需要处理的数据量太大,导致成本很高,效率很低2、图像在数字化的过程中很难

2021-07-24 16:52:24 290

原创 李宏毅深度学习task5

局部最小值和鞍点如何区分局部最小点和鞍点一般区分鞍点和局部最优的方法是使用神经网络 loss surface 的 Hessian 矩阵,通过计算 Hessian 矩阵的特征值,进行判断:当 Hessian 矩阵的特征值有正有负的时候,神经网络的一阶导数为 0 的点是鞍点;当 Hessian 矩阵的特征值是非负的时候,神经网络的一阶导数为 0 的点是局部极小值点;当 Hessian 矩阵最小特征值小于零,则为严格鞍点(包含了局部最大)另外一种判断是否是鞍点的方法:若某个一阶导数为0的点在至少一个方向上

2021-07-20 17:52:48 509

原创 李宏毅深度学习task4

深度学习深度学习是机器学习的一个分支(最重要的分支)机器学习是人工智能的一个分支深度学习可以说是在传统神经网络基础上的升级,约等于神经网络假设深度学习要处理的信息是“水流”,而处理数据的深度学习网络是一个由管道和阀门组成的巨大水管网络。网络的入口是若干管道开口,网络的出口也是若干管道开口。这个水管网络有许多层,每一层由许多个可以控制水流流向与流量的调节阀。根据不同任务的需要,水管网络的层数、每层的调节阀数量可以有不同的变化组合。对复杂任务来说,调节阀的总数可以成千上万甚至更多。水管网络中,每一层的每

2021-07-18 23:14:59 228 2

原创 李宏毅深度学习task3

偏差和方差方差的含义:方差度量了同样大小的训练集的变动所导致的学习性能的变化,即刻画了数据扰动所造成的影响。 (2)偏差定义: 期望输出与真实标记的差别称为偏差(bias),即: 偏差的含义:偏差度量了学习算法的期望预测与真实结果的偏离程度,即刻画了学习算法本身的拟合能力偏差、方差与bagging、boosting的关系?Bagging算法是对训练样本进行采样,产生出若干不同的子集,再从每个数据子集中训练出一个分类器,取这些分类器的平均,所以是降低模型的方差(variance)。Bagging算法和R

2021-07-16 23:31:28 194

原创 李宏毅深度学习-task2

回归方程损失函数(Loss function)机器学习中的监督学习本质上是给定一系列训练样本,尝试学习映射关系,使得给定一个函数公式,即便这个样本不在训练样本中,也能够输出,尽量与真实的接近。损失函数是用来估量模型的输出与真实值之间的差距,给模型的优化指引方向均方差损失(Mean Squared Error Loss)均方差(Mean Squared Error,MSE)损失是机器学习、深度学习回归任务中最常用的一种损失函数,也称为 L2 Loss平均绝对误差损失(Mean Absolute Er

2021-07-14 17:45:53 296

原创 李宏毅深度学习-task1

李宏毅深度学习-机器学习介绍机器学习机器学习是人工智能的一种形式,它使系统能够从数据中学习而不是通过显式程序学习。 随着算法采集训练数据,它可以基于这些数据生成更精确的模型。 机器学习模型是使用数据训练机器学习算法时生成的输出。 经过训练后,当您为模型提供输入信息时,您将获得相应的输出结果。机器学习定义机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。机器学习是对能通过经验自动改进的计算机算法的研究。机器学习是用数据或以往的经验,以此优化计算

2021-07-12 21:28:39 154

原创 图神经网络 总结

图神经网络学习内容图论与程序中图的操作实现图神经网络的消息传递范式节点表征学习与节点预测和边预测超大图上节点表征学习图表征学习与图预测图神经网络学习总结十分感谢大佬设计的课程,学习到了最前沿的图神经网络内容。图神经网络的应用很广,希望在以后可以应用到实际场景上,如生物医学,智慧城市等。图神经网络需要的硬件需求还是比较高的,后续继续研究有什么方法可以加快运行。引用链接: datawhale-gnn...

2021-07-10 23:08:18 193 2

原创 图神经网络task7

超大规模数据集类的创建图神经网络的新基准Benchmarking Graph Neural Networks与图形无关的NN(MLP)在小型数据集上的表现与GNN相同对于较大的数据集,GNN改进了与图无关的NN最简单形式的GNN表现较差各向同性GNN架构在原始GCN上有所改进。GraphSage证明了在图卷积层中使用中心节点信息的重要性。GIN采用了中心节点特征以及一个新的分类器层,该分类器层在所有中间层均与卷积特征相连。DiffPool考虑了一种可学习的图形池化操作,其中在每个分辨率级别使用Gr

2021-07-08 15:52:15 181

原创 图神经网络task6

基于图神经网络的图表征学习方法引用链接: datawhale-gnn

2021-07-05 14:56:39 162

原创 图神经网络task5

超大图上的节点表征学习Cluster-GCN的工作原理如下:在每个步骤中,它对一个与通过用图聚类算法来区分的密集子图相关联的一组节点进行采样,并限制该子图中的邻居搜索。这种简单且有效的策略可以显著提高内存和计算效率,同时能够达到与以前算法相当的测试精度。现有GCN训练算法缺陷1、GCN的第一篇论文提出了全批次梯度下降(Full-batch gradient descent)。要计算整个梯度,它需要存储所有中间embeddings,导致O(NFL)内存需求,这是不可扩展的。2、GraphSAGE中提出

2021-07-01 17:58:03 120

原创 图神经网络task4

数据完全存于内存的数据集类如何利用容量大于内存的数据集训练神经网络在训练神经网络的时候,我们常常会遇到训练集大于RAM的情况。如果直接暴力读取会出现MemoryError,那这个时候我们应该怎么办呢?Dataset类在__init__()中把你的数据集全都遍历一遍,然后生成一个惰性迭代器。之后在你需要数据的时候,输入数据的index他就只会加载你需要的数据,而不是一下子全部加载到RAM中。那有人会问,你这不是还要遍历一遍完整的数据集吗,遍历的时候不是还是需要加载到RAM中吗?对没错,确实需要,但是遍

2021-06-27 23:08:52 191 1

原创 图神经网络task3

基于图神经网络的节点表征学习其中如何设计一套合理方式来高效地进行特征表示,是十分重要的,比如在cv与nlp任务中,我们会分别设计cnn模块与RNN模块来建模图像中像素点表征的信息、word表征的信息。Graph的特征表示极为复杂,主要表现在以下三个方面:1、极其复杂的拓扑结构,很难简单地像图像中的感受野来提取有效信息;2、无特定的节点顺序;3、通常graph会是动态变化的, 且使用多模态特征;对graph进行特征学习的三个方法1、Embedding Nodes2、Random Walk3、

2021-06-23 18:30:10 130

原创 图神经网络task2

消息传递图神经网络GNNGNN是一个邻居聚合策略,一个节点的表示向量,由它的邻居节点通过循环的聚合和转移表示向量计算得来。我们来想象人类学习知识的过程,在自身具有一定知识的基础上,我们会想要从周围的伙伴那里学习到更多的知识,然后将伙伴给予的信息与自身已有的知识组合起来,更新并获得更高阶的知识,这个过程就是一个消息传递过程。MPNN消息传递阶段 :共运行T个时间步,并包含以下两个子函数:Aggregation Function:也称消息函数,作用是聚合邻居节点的特征,形成一个消息向量,准备传递给

2021-06-19 13:34:38 132

原创 图神经网络 task1

图结构数据图的定义什么是图呢?图是一种复杂的非线性结构。在线性结构中,数据元素之间满足唯一的线性关系,每个数据元素(除第一个和最后一个外)只有一个直接前趋和一个直接后继;在树形结构中,数据元素之间有着明显的层次关系,并且每个数据元素只与上一层中的一个元素(双亲节点)及下一层的多个元素(孩子节点)相关;而在图形结构中,节点之间的关系是任意的,图中任意两个数据元素之间都有可能相关。图G由两个集合V(顶点Vertex)和E(边Edge)组成,定义为G=(V,E)图相关的概念和术语1,无向图和有向

2021-06-15 17:21:07 172

原创 数据挖掘(异常检测)task5-高维异常检测

高维异常检测随机森林是最流行和功能最强大的机器学习算法之一介绍用于估计样本统计量的自举方法。介绍Bagging,可从单个训练数据集中创建多个不同的模型。介绍随机森林算法对Bagging进行了一些细微调整,并产生了非常强大的分类器。bootstrap介绍bagging前,先介绍bootstrap,是一种强大的统计方法,用于从数据样本中估计数量。如果数量是描述性统计量(例如平均值或标准偏差),则最容易理解。假设我们有一个100个值(x)的样本,并且希望获得样本平均值的估计值。我们可以直接从样本中

2021-05-21 15:00:44 288

原创 数据挖掘(异常检测)task4-基于相似度的方法

基于相似度的方法这一部分的学习,我看了相关的论文和Outlier Analysis中的介绍,总结是专门为数据分散密度不一样进行分析的,这种数据用线性模型等方法不容易计算出来。如图,这种分散不一样的数据,也没有相对应的趋势LOF算法特点LOF算法是一种非监督算法LOF算法是一种基于密度的算法LOF算法适合于对不同密度的数据的异常检测LOF论文定义论文中有很多的解释和公式,其实主要说的是如何通过识别点与点之间的距离,分布点的密度来进行测算是否异常样本点1、d ( p , o ) d(p, o)

2021-05-20 18:08:22 141

原创 数据挖掘(异常检测)task3-线性模型

线性模型线性回归模型在线性回归中,使用线性方程组对数据中的观测值进行建模。具体来说,数据中的不同维度使用一组线性方程组相互关联,其中系数需要以数据驱动的方式学习。由于观测值的数目通常比数据的维数大得多,这个方程组是一个过定over-determined的方程组,不能精确求解(即零误差)。因此,这些模型学习系数,使数据点的偏差与线性模型预测的值的平方误差最小化。回归分析使时间序列分析中的一个常见场景。回归分析需要从一组自变量(自变量也称为解释变量)中学习特定因变量的值。这是一个具有上下文数据类型的共

2021-05-16 23:45:44 1712

原创 数据挖掘(异常检测)task2

异常检测——基于统计学的方法1、概述统计学方法对数据的正常性做出假定。**它们假定正常的数据对象由一个统计模型产生,而不遵守该模型的数据是异常点。**统计学方法的有效性高度依赖于对给定数据所做的统计模型假定是否成立。异常检测的统计学方法的一般思想是:学习一个拟合给定数据集的生成模型,然后识别该模型低概率区域中的对象,把它们作为异常点。即利用统计学方法建立一个模型,然后考虑对象有多大可能符合该模型。根据如何指定和学习模型,异常检测的统计学方法可以划分为两个主要类型:参数方法和非参数方法。参数方法假

2021-05-14 08:11:42 246

原创 数据挖掘(异常检测)task1

1、什么是异常检测1.1 异常的类别点异常(point anomalies)指的是少数个体实例是异常的,大多数个体实例是正常的,例如正常人与病人的健康指标;条件异常(conditional anomalies),又称上下文异常,指的是在特定情境下个体实例是异常的,在其他情境下都是正常的,例如在特定时间下的温度突然上升或下降,在特定场景中的快速信用卡交易;群体异常(group anomalies)指的是在群体集合中的个体实例出现异常的情况,而该个体实例自身可能不是异常,在入侵或欺诈检测等应用中,离群点

2021-05-11 11:43:20 669

原创 Task6 拓展阅读:语音识别基础知识介绍

语音识别基础与发展语音识别全称为“自动语音识别”,Automatic Speech Recognition (ASR), 一般是指将语音序列转换成文本序列。语音识别最终是统计优化问题,给定输入序列O={O1,…,On},寻找最可能的词序列W={W1,…,Wm},即寻找使得概率P(W|O)最大的词序列。传统机器学习,基于统计的GMM-HMM,其中HMM (隐马尔可夫模型,Hidden Markov Model)用来描述信号动态特性(即语音信号相邻帧间的相关性),GMM(高斯混合模型,Gaussian Mi

2021-04-22 14:42:46 289

原创 Task5 食物声音识别之模型改进与优化

1、过拟合和欠拟合可以看出,图(a)是欠拟合的情况,拟合的黄线没有很好地捕捉到数据的特征,不能够很好地拟合数据。图(c)则是过拟合的情况,模型过于复杂,把噪声数据的特征也学习到模型中,导致模型泛化能力下降,在后期应用过程中很容易输出错误的预测结果。过拟合是指模型对于训练数据拟合呈过当的情况,反映到评估指标上,就是模型在训练集上的表现很好,但在测试集和新数据上的表现较差。欠拟合指的是模型在训练和预测时表现都不好的情况。2、泛化误差、偏差和方差模型调优,第一步是要找准目标:我们要做什么?一般来说,这个

2021-04-20 16:06:03 158

原创 Task4 食物声音识别-深度学习模型搭建与训练

1、相关包导入以及特征提取max_file可以控制导入每个文件夹特征的数量2、建立模型建立CNN模型卷积神经网络CNN的结构一般包含这几个层:1)输入层:用于数据的输入2)卷积层:使用卷积核进行特征提取和特征映射------>可以多次重复使用3)激励层:由于卷积也是一种线性运算,因此需要增加非线性映射(也就是激活函数)4)池化层:进行下采样,对特征图稀疏处理,减少数据运算量----->可以多次重复使用5)Flatten操作:将二维的向量,拉直为一维的向量,从而可以放入下一层的

2021-04-19 21:30:41 217

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除