- 博客(137)
- 资源 (6)
- 收藏
- 关注
原创 sheng的学习笔记-AI-模型评估-留出法、交叉验证法、自助法
K折交叉验证(K-Fold Cross-Validation)是一种常用的模型评估和模型选择方法,它通过将数据集分成K个大小相等的子集(或尽可能相等),然后使用其中K-1个子集进行训练,剩下的1个子集用于测试,这个过程重复K次,每次选择不同的子集作为测试集。以上的场景是,比如100万的数据,留下5万作为最终测试集, 还剩下95万的数据作为训练集和验证集,那我是90万作为训练集,5万作为固定的,将90万的数据分为10个批次(每个批次互斥,每个批次10万的数据)每次fit的时候训练集是10万。
2024-12-25 11:08:23
751
原创 sheng的学习笔记-AI-WaveNet模型
WaveNet是一种生成模型。能够生成模仿任何人声的语音,并且其声音比现有最佳文本转语音系统更自然,也可以用于合成其他音频信号允许人们与机器对话是人机交互长期以来的梦想。通过应用深度神经网络(例如,谷歌语音搜索),计算机理解自然语言的能力得到了革命性的提升。然而,用计算机生成语音——通常被称为语音合成或文本转语音(TTS)——仍然主要基于所谓的拼接式TTS,其中需要从单一说话者那里录制一个非常大的短语语音片段数据库,然后将这些片段重新组合以形成完整的语句。
2024-12-16 17:28:54
1109
原创 sheng的学习笔记-TCN时序卷积:因果卷积、空洞卷积
TCN全称Temporal Convolutional Network,时序卷积网络,是在2018年提出的一个卷积模型,但是可以用来处理时间序列。Dilated Causal Convolution, 也叫扩展卷积、膨胀卷积、空洞卷积。单纯的因果卷积还是存在传统卷积神经网络的问题,即对时间的建模长度受限于卷积核大小的,如果要想抓去更长的依赖关系,就需要线性的堆叠很多的层。标准的 CNN 可以通过增加 pooling 层来获得更大的感受野,而经过 pooling 层后肯定存在信息损失的问题。
2024-12-16 15:59:11
1168
原创 sheng的学习笔记-AI-自然语言处理(NLP),机器翻译,情感分类,词嵌入
比如你在做一个语音识别系统,你听到一个句子,“”,所以我究竟说了什么?我说的是 “”,还是“pear和pair是近音词)。你可能觉得我说的应该更像第二种,事实上,这就是一个好的语音识别系统要帮助输出的东西,即使这两句话听起来是如此相似。而让语音识别系统去选择第二个句子的方法就是使用一个语言模型,他能计算出这两句话各自的可能性就是一个可以找到词嵌入的简化模型和神经网络(上图编号2所示),其实就是个softmax单元。矩阵E将会有很多参数,所以矩阵E有对应所有嵌入向量的参数ec(上图编号6所示),
2024-12-11 17:43:36
863
原创 sheng的学习笔记-AI-序列模型(Sequence Models),RNN,GRU,LSTM
序列模型是输入输出均为序列数据的模型,它能够将输入序列数据转换为目标序列数据。常见的序列模型类型包括一对一、一对多、多对一、部分多对多和完全多对多。重要的是需要有顺序,普通的模型对于采样数据不需要有顺序,可以打乱,但序列模型的输入必须是有序的。
2024-12-06 13:59:54
997
原创 sheng的学习笔记-【中】【吴恩达课后测验】Course 5 - 序列模型 - 第三周测验 - 序列模型与注意力机制
9.在CTC模型下,不使用"空白"字符(_)分割的相同字符串将会被折叠。1.想一想使用如下的编码-解码模型来进行机器翻译,这个模型是“条件语言模型”,编码器部分(绿色显示)的意义是建模中输入句子x的概率。5.接着使用第4题的样本,假设你花了几周的时间来研究你的算法,现在你发现,对于绝大多数让算法出错的例子而言,3.在机器翻译中,如果我们在不使用句子归一化的情况下使用集束搜索,那么算法会输出过短的译文。的基于RNN模型的语音识别系统,你的程序使用了集束搜索来试着找寻最大的。
2024-12-02 14:14:54
757
原创 sheng的学习笔记-【中】【吴恩达课后测验】Course 5 -序列模型 - 第二周测验 - 自然语言处理与词嵌入
3.假设你下载了一个已经在一个很大的文本语料库上训练过的词嵌入的数据,然后你要用这个词嵌入来训练RNN并用于识别一段文字中的情感,判断这段文字的内容是否表达了“快乐”。9.假设你有10000个单词词汇,并且正在学习500维的词嵌入,GloVe模型最小化了这个目标,以下说法中哪一个(些)是正确的?1.假设你为10000个单词学习词嵌入,为了捕获全部范围的单词的变化以及意义,那么词嵌入向量应该是10000维的。的任务,如果这个预测做的不是很好那也是没有关系的,因为这个任务更重要的是学习了一组有用的嵌入词。
2024-12-02 14:09:11
1182
原创 sheng的学习笔记-【中】【吴恩达课后测验】Course 5 - 序列模型 - 第一周测验
9.下面有一些GRU和LSTM的方程,从这些我们可以看到,在LSTM中的更新门和遗忘门在GRU中扮演类似 ___ 与 ___ 的角色,空白处应该填什么?7.假设你正在训练一个LSTM网络,你有一个10,000词的词汇表,并且使用一个激活值维度为100的LSTM块,在每一个时间步中,6.你正在训练一个RNN网络,你发现你的权重与激活值都是“NaN”,下列选项中,哪一个是导致这个问题的最有可能的原因?你已经收集了过去365天的天气数据。A. 【 】(1)使用RNN输出的概率,选择该时间步的最高概率单词作为。
2024-12-02 13:57:23
514
原创 sheng的学习笔记-tidb框架原理
OLTP(联机事务处理)和OLAP(联机分析处理)定义OLTP:联机事务处理(Online Transaction Processing),主要用于日常事务处理,如银行交易、销售记录等,强调高吞吐量和实时处理。OLAP:联机分析处理(Online Analytical Processing),主要用于数据分析、决策支持,强调复杂查询和多维数据分析。数据处理方式OLTP:主要处理当前的、详细的数据,强调增删改查(CRUD)操作,数据更新频繁,响应时间短。OLAP。
2024-11-06 12:06:17
1107
原创 sheng的学习笔记-AI基础-激活函数
是神经网络中的一个关键组件,负责将输入的线性组合转化为非线性输出。它赋予神经网络模型以复杂的表达能力,使其能够处理非线性问题,比如分类、图像识别和自然语言处理等任务。Sigmoid 函数是深度学习中最早广泛使用的激活函数之一,它将输入值映射到 ( 0 , 1 ) 的区间,输出为一个概率值。其公式为::输出值在 0 00 到 1 11 之间,因此常用于二分类问题。
2024-10-30 16:01:59
1167
原创 sheng的学习笔记-AI基础-正确率/召回率/F1指标/ROC曲线
例如,假设你训练一个分类器来检测儿童可以放心观看的视频,那么你可能更青睐那种拦截了很多好视频(低召回率),但是保留下来的视频都是安全(高精度)的分类器,而不是召回率虽高,但是在产品中可能会出现一些非常糟糕的视频的分类器(这种情况下,你甚至可能会添加一个人工流水线来检查分类器选出来的视频)。但显然这样的机器学习系统是失败的,因为对于极度偏斜(Skewed Data)的数据,只使用分类准确度是远远不够的。这不一定能一直符合你的期望:在某些情况下,你更关心的是精度,而另一些情况下,你可能真正关心的是召回率。
2024-10-24 10:08:48
726
原创 sheng的学习笔记-AI-时序差分学习
时序差分学习是强化学习中的免模型学习免模型学习:在现实的强化学习任务中,环境的转移概率、奖赏函数往往很难得知,甚至很难知道环境中一共有多少状态.若学习算法不依赖于环境建模,则称为“免模型学习”蒙特卡罗强化学习在一个完整的采样轨迹完成后再对所有的状态-动作对进行更新,因为在“完整”的采样轨迹后才更新,所以速度比较慢。
2024-09-25 17:43:04
368
原创 sheng的学习笔记-logback
Logback是一个用于Java应用程序的日志框架,提供了更好的性能、可扩展性和灵活性。与Log4j相比,Logback提供了更快的速度和更低的内存占用,这使得它成为大型企业级应用程序的理想选择。
2024-09-25 15:54:58
1004
原创 sheng的学习笔记-AI-蒙特卡罗强化学习
亦称“无模型学习”。在现实的强化学习任务中,环境的转移概率、奖赏函数往往很难得知,甚至很难知道环境中一共有多少状态.若学习算法不依赖于环境建模,则称为“免模型学习”(model-free learning)在免模型情形下,策略迭代算法首先遇到的问题是策略无法评估,这是由于模型未知而导致无法做全概率展开.此时,只能通过在环境中执行选择的动作,来观察转移的状态和得到的奖赏。蒙特卡罗是强化学习中的免模型学习。
2024-09-25 13:47:09
909
原创 sheng的学习笔记-AI-强化学习(Reinforcement Learning, RL),模仿学习(imitation learning)
强化学习(Reinforcement Learning, RL),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。
2024-09-20 17:03:13
832
原创 sheng的学习笔记-AI-归纳逻辑程序设计(ILP)
归纳逻辑程序设计采用自底向上的规则生成策略,直接将一个或多个正例所对应的具体事实(grounded fact)作为初始规则,再对规则逐步进行泛化以增加其对样例的覆盖率。泛化操作可以是将规则中的常量替换为逻辑变量,也可以是删除规则体中的某个文字。为简便起见,暂且假定“更好(X,Y)”仅决定于(X,Y)取值相同的关系,正例 “更好(1,10)”和“更好(1,15)”所对应的初始规则分别为更好(1,10)←根蒂更蜷(1,10)∧声音更沉(1,10)∧脐部更凹(1,10)∧触感更硬(1,10);
2024-09-19 23:56:37
954
1
原创 sheng的学习笔记-AI-FOIL(First-Order Inductive Learner)
AI目录:sheng的学习笔记-AI目录-优快云博客规则学习(rule learning): sheng的学习笔记-AI-规则学习(rule learning)-优快云博客序贯覆盖(sequential covering):sheng的学习笔记-AI-序贯覆盖(sequential covering)FOIL(First-Order Inductive Learner)是著名的一阶规则学习算法,它遵循序贯覆盖框架且采用自顶向下的规则归纳策略,与命题规则学习过程很相似。但由于逻辑变量的存在,FOIL在规则
2024-09-14 14:16:47
674
原创 sheng的学习笔记-AI-序贯覆盖(sequential covering)
规则学习的目标是产生一个能覆盖尽可能多的样例的规则集。最直接的做法是“序贯覆盖”(sequential covering),即逐条归纳:在训练集上每学到一条规则,就将该规则覆盖的训练样例去除,然后以剩下的训练样例组成训练集重复上述过程。由于每次只处理一部分数据,因此也被称为“分治”(separate-and-conquer)策略。
2024-09-12 12:21:19
813
原创 sheng的学习笔记-AI-规则学习(rule learning)
机器学习中的“规则”(rule)通常是指语义明确、能描述数据分布所隐含的客观规律或领域概念、可写成“若……,则……”形式的逻辑规则。“规则学习”(rule learning)是从训练数据中学习出一组能用于对未见示例进行判别的规则。一条规则形如:在数理逻辑中“文字”专指原子公式(atom)及其否定。与神经网络、支持向量机这样的“黑箱模型”相比,规则学习具有更好的可解释性,能使用户更直观地对判别过程有所了解。另一方面,数理逻辑具有极强的表达能力,绝大多数人类知识都能通过数理逻辑进行简洁的刻画和表达。
2024-09-09 15:46:54
1478
原创 sheng的学习笔记-AI-话题模型(topic model),LDA模型,Unigram Model,pLSA Model
话题模型(topic model)是一族生成式有向图模型,主要用于处理离散型的数据(如文本集合),在信息检索、自然语言处理等领域有广泛应用。隐狄利克雷分配模型(Latent Dirichlet Allocation,简称LDA)是话题模型的典型代表。
2024-09-09 13:54:49
995
原创 sheng的学习笔记-AI-概率图,隐马尔可夫HMM,马尔可夫随机场MRF,条件随机场CRF
条件随机场(Conditional Random Field,简称CRF)是一种判别式无向图模型,可看作给定观测值的马尔可夫随机场,
2024-09-06 14:39:48
1056
原创 sheng的学习笔记-AI-半监督聚类
聚类是一种典型的无监督学习任务,然而在现实聚类任务中我们往往能获得一些额外的监督信息,于是可通过半监督聚类(semi-supervised clustering)来利用监督信息以获得更好的聚类效果。聚类任务中获得的监督信息大致有两种类型。第一种类型是“必连”(must-link)与“勿连”(cannot-link)约束,前者是指样本必属于同一个簇,后者是指样本必不属于同一个簇;第二种类型的监督信息则是少量的有标记样本。
2024-08-30 16:36:01
1883
原创 sheng的学习笔记-AI-基于分歧的方法
基于分歧的方法通过多个学习器之间的分歧(disagreement)/多样性(diversity)来利用未标记样本数据,协同训练就是其中的一种经典方法。协同训练最初是针对于多视图(multi-view)数据而设计的,多视图数据指的是样本对象具有多个属性集,每个属性集则对应一个试图。例如:电影数据中就包含画面类属性和声音类属性,这样画面类属性的集合就对应着一个视图。协同训练正是很好地利用了多视图数据的“相容互补性。
2024-08-30 00:06:45
868
原创 sheng的学习笔记-AI-图半监督学习
给定一个数据集,我们可将其映射为一个图,数据集中每个样本对应于图中一个结点,若两个样本之间的相似度很高(或相关性很强),则对应的结点之间存在一条边,边的“强度”(strength)正比于样本之间的相似度(或相关性)。我们可将有标记样本所对应的结点想象为染过色,而未标记样本所对应的结点尚未染色。于是,半监督学习就对应于“颜色”在图上扩散或传播的过程。由于一个图对应了一个矩阵,这就使得我们能基于矩阵运算来进行半监督学习算法的推导与分析。这就是标记传播算法下面这一坨的算法,看看就得了,反正我也没看懂。
2024-08-29 17:54:26
481
原创 sheng的学习笔记-AI-半监督SVM
半监督支持向量机(,简称S3VM)是支持向量机在半监督学习上的推广。在不考虑未标记样本时,支持向量机试图找到最大间隔划分超平面,而在考虑未标记样本后,S3VM试图找到能将两类有标记样本分开,且穿过数据低密度区域的划分超平面,如图13.3所示,这里的基本假设是“低密度分隔”(low-density separation),显然,这是聚类假设在考虑了线性超平面划分后的推广。
2024-08-26 22:22:49
716
原创 sheng的学习笔记-AI-生成式方法
给定有标记样本集Dl={(x1,y1),(x2,y2),...,(xl,yl)}和未标记样本集Du={xl+1,xl+2,...,xl+u},l≪u,l+u=m.假设所有样本独立同分布,且都是由同一个高斯混合模型生成的。用极大似然法来估计高斯混合模型的参数。与高斯混合聚类类似地,这里的主要任务也是估计出各个高斯混合成分的参数以及混合系数,不同的是:对于有标记样本,不再是可能属于每一个类簇,而是只能属于真实类标对应的特定类簇。此类方法的区别主要在于生成式模型的假设,不同的模型假设将产生不同的方法。
2024-08-25 22:58:38
489
原创 sheng的学习笔记-AI-半监督学习
我们在丰收季节来到瓜田,满地都是西瓜,瓜农抱来三四个瓜说这都是好瓜,然后再指着地里的五六个瓜说这些还不好,还需再生长若干天。基于这些信息,我们能否构建一个模型,用于判别地里的哪些瓜是已该采摘的好瓜?显然,可将瓜农告诉我们的好瓜、不好的瓜分别作为正例和反例来训练一个分类器但如果瓜农无法提供大量的好瓜/不好的瓜 的标记,那就需要根据已经提供的少量标记,来学习大量未标记的数据让学习器不依赖外界交互、自动地利用未标记样本来提升学习性能,就是半监督学习(semi-supervised learning)。
2024-08-25 22:04:30
752
原创 sheng的学习笔记-AI-k近邻学习(kNN)
k近邻(k-Nearest Neighbor,简称kNN)学习是一种常用的监督学习方法,是一种基本的分类与回归方法。分类问题:对新的样本,根据其 k 个最近邻的训练样本的类别,通过多数表决等方式进行预测。回归问题:对新的样本,根据其 k 个最近邻的训练样本标签值的均值作为预测值。
2024-08-07 11:13:21
622
原创 sheng的学习笔记-AI-层次聚类
层次聚类(hierarchical clustering)试图在不同层次对数据集进行划分,从而形成树形的聚类结构。数据集的划分可采用“自底向上”的聚合策略,也可采用“自顶向下”的分拆策略是一种常用的采用自底向上聚合策略的层次聚类算法。
2024-08-05 15:48:11
449
原创 sheng的学习笔记-AI-公式-指数加权移动平均(EWMA)
当β等于0.98的时候,还是用回上面的温度例子,曲线实际上不是像绿线一样,而是像紫线:在紫线刚刚开始的时候,曲线的值相当的低,这是因为在一开始的时候并没有50天(1/(1-β)为50)的数据,而是只有寥寥几天的数据,相当于少加了几十天的数据,所以vt的值很小,这和实际情况的差距是很大的,也就是出现的偏差。
2024-07-27 22:05:05
1079
原创 sheng的学习笔记-AI-密度聚类
密度聚类亦称“基于密度的聚类”(density-based clustering),此类算法假设聚类结构能通过样本分布的紧密程度确定。通常情形下,密度聚类算法从样本密度的角度来考察样本之间的可连接性,并基于可连接样本不断扩展聚类簇以获得最终的聚类结果后续表达的距离函数dist(·,·)在默认情况下设为欧氏距离若x为核心对象,由x密度可达的所有样本组成的集合记为X={x'∈D|x‘由x密度可达},则不难证明X即为满足连接性与最大性的簇。
2024-06-28 11:20:03
1115
原创 sheng的学习笔记-hive框架原理
Hive是基于Hadoop的一个数据仓库(Data Aarehouse,简称数仓、DW),可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。是用于存储、分析、报告的数据系统,常用作离线数据仓库Hive的本质是:将Hive SQL转化成MapReduce程序,其灵活性和扩展性比较好,支持UDF,自定义存储格式等;适合离线数据处理。Hive分区是把数据按照某个属性分成不同的数据子集。在Hive中,数据被存储在HDFS中,每个分区实际上对应HDFS下的一个文件夹。
2024-06-26 23:22:19
1198
2
原创 sheng的学习笔记-AI-高斯混合模型(GMM)
高斯混合模型(Gaussian Mixture Models ,GMMs)假设存在一定数量的高斯分布,并且每个分布代表一个簇。高斯混合模型倾向于将属于同一分布的数据点分组在一起。它是一种基于概率分布的聚类算法,它是首先假设每个簇符合不同的高斯分布,也就是多元正态分布,说白了就是每个簇内的数据会符合一定的数据分布。我们有三个簇,用三种颜色表示-蓝色、绿色和青色。我们用红色突出显示一个数据点,这个点划分进蓝色簇的概率为1,而划分进绿色簇或者青色簇的概率为0。
2024-06-25 16:49:17
893
原创 sheng的学习笔记-AI-学习向量量化
学习向量量化”(,简称LVQ)是试图找到一组原型向量来刻画聚类结构,但与一般聚类算法不同的是,LVQ假设数据样本带有类别标记,学习过程利用样本的这些监督信息来辅助聚类。
2024-06-25 15:15:37
416
原创 sheng的学习笔记-AI-K均值算法
K-均值(K-Means Algorithm)是最普及的聚类算法,算法接受一个未标记的数据集,然后将数据聚类成不同的组。
2024-06-24 17:33:10
934
原创 sheng的学习笔记-AI-聚类(Clustering)
在“无监督学习”(unsupervised learning)中,训练样本的标记信息是未知的,目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律,为进一步的数据分析提供基础。此类学习任务中研究最多、应用最广的是“聚类”(clustering)。对聚类算法而言,样本簇亦称“类”。聚类试图将数据集中的样本划分为若干个通常是不相交的子集,每个子集称为一个“簇”(cluster)。
2024-06-24 17:02:27
918
原创 sheng的学习笔记-AI-集成学习(adaboost,bagging,随机森林,堆叠法)
集成需求,boosting,adaboost,bagging,随机森林
2024-06-17 14:59:32
1164
linux系统安装oracle数据库详解
2014-05-08
win7系统下virtualbox装Mac雪豹系统,解决升级mac系统后鼠标无法移动的问题
2012-10-16
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人