
机器学习与深度学习
文章平均质量分 89
机器学习和深度学习的知识总结
暖仔会飞
这个作者很懒,什么都没留下…
展开
-
NLP——Ethics伦理
数据偏见:NLP系统通常通过学习大量的语言数据来训练,如果这些数据包含偏见,如性别、种族、年龄、宗教等方面的偏见,那么这些偏见可能会被NLP系统学习并放大,从而影响系统的决策和推荐。偏见和歧视:对于语言的标签可能引发和加强偏见和歧视。误解和误分类:工具可能无法完全准确地理解和分类语言,这可能导致误解和误分类,从而引发一系列的问题,如误导研究,引发误会,或者伤害到被误分类的人。隐私保护:在NLP中,用户的语言数据通常被用来训练模型,如果没有得到适当的处理和保护,可能会泄露用户的隐私信息。原创 2023-06-15 09:59:05 · 2245 阅读 · 0 评论 -
NLP——Summarization
为了训练这些模型,我们使用的数据的类型也不同,其中一种就是: 将文章的第一句话作为 document,summary 就是文章的题目G 是A 是生成的summary。原创 2023-06-15 09:17:49 · 2428 阅读 · 0 评论 -
NLP——Topic Modelling
主题建模(Topic Modeling)是一种统计模型,用于在一组文档中发现抽象的"主题"。主题可以看作是一种潜在的变量,能够捕获文档中的主要讨论点。比如,你有一堆新闻文章,通过主题建模,可能可以发现一些主题,如"国际政治",“经济”,“体育”,“娱乐"等。每个主题都由一组与之相关的关键词定义。例如,“体育”主题可能包括"篮球”,“足球”,"奥运会"等词语。原创 2023-06-15 02:34:16 · 2788 阅读 · 0 评论 -
NLP——Question Answering 问答模型
语义分析(Semantic Analysis):这一步涉及到理解问题的含义,可能包括命名实体识别(Named Entity Recognition,即识别出问题中的实体,如人名、地名等)、实体链接(Entity Linking,即把问题中的实体链接到知识库中的实体)和关系抽取(Relation Extraction,即理解问题中的实体之间的关系)。这可能是一种结构化的表示(例如一个包含实体、关系和关键词的图)或者一种分布式的表示(例如一个向量,由词嵌入模型如Word2Vec或BERT生成)。原创 2023-06-15 00:28:26 · 4832 阅读 · 1 评论 -
NLP——Information Extraction信息提取
例如,在句子 “Barack Obama was born in Hawaii.” 中,我们可以抽取出关系 (“Barack Obama”, “born in”, “Hawaii”)。原创 2023-06-14 23:47:51 · 2591 阅读 · 0 评论 -
NLP——Translation 机器翻译
基于短语的翻译模型是SMT中常用的模型之一,它将源语言和目标语言的句子划分为短语,并建立短语对之间的翻译概率。基于短语对齐(Phrase Alignment):基于短语对齐的方法将源语言和目标语言的短语进行对应,以实现句子或段落级别的对齐。基于词对齐(Word Alignment):基于词对齐的方法尝试将源语言和目标语言中的单词进行对应,以实现句子或短语的对齐。解码器生成:将上下文向量与解码器当前的输入(通常是之前生成的目标语言词)一起输入解码器,生成下一个目标语言词的概率分布。从而解决了这个问题。原创 2023-06-14 21:29:13 · 3685 阅读 · 0 评论 -
NLP——Discourse;Discourse Segmentation;Discourse Parsing / Discourse Analysis;Anaphora Resolution
修辞结构理论可以帮助确定哪些部分的文本对于理解整体含义最为重要。例如,"nucleus"部分通常包含了句子或段落的主要信息,而"satellite"部分则提供了补充或支持性的信息。因此,可以通过选择和重新组织nucleus部分来生成摘要。原创 2023-06-11 02:17:35 · 1092 阅读 · 0 评论 -
NLP基础——Bag of Words 词袋法
另外,BoW 还有一个问题是高维度,因为它的维度是词汇表的大小,这对于大语料来说可能是非常大的。对于这两个句子,我们首先创建词汇表,包含所有的单词:{ “The”, “cat”, “sat”, “on”, “the”, “mat”, “dog”, “log”}。[2, 1, 1, 1, 2, 1, 0, 0] (对应 “The cat sat on the mat.”),然后对于每一个文本,生成一个向量,长度为词汇表的大小,每一个元素是对应单词在该文本中出现的次数。这就是 BoW 的基本思想。原创 2023-06-11 02:05:28 · 2425 阅读 · 1 评论 -
NLP——ELMO;BERT;Transformers
ELMo(Embeddings from Language Models)是一个在2018年由Allen AI研究所开发的新型深度语义词嵌入(word embedding)。ELMo词嵌入是基于上下文的,这意味着对于任何给定的词,它的表示都会根据它出现的上下文而变化。这是一个重要的进步,因为传统的词嵌入,如Word2Vec或GloVe,为每个词提供一个固定的表示,不考虑词在特定上下文中可能有的不同含义。原创 2023-06-10 23:27:58 · 1647 阅读 · 2 评论 -
NLP——分布式语义 Distributional Semantics:Word Vectors;Word2Vec
相比之下,基于分布式语义的方法可以通过从大规模的文本数据中自动学习词汇的语义,无需人工干预,可以处理大规模的词汇,捕获细微的语义差异,处理新出现的词汇,以及实时反映语言的变化。总的来说,Skip-gram 模型是通过学习预测上下文来获得词的向量表示的,这种方法能有效地捕捉词的语义信息,并且生成的词嵌入可以在各种 NLP 任务中用作预训练的词向量,大大提高模型的性能。然而,词向量也有一些局限性,例如,它们通常忽略了词汇的多义性(一个词可能有多种意义),并且对于特定任务,可能需要大量的训练数据和计算资源。原创 2023-06-10 21:02:44 · 1999 阅读 · 0 评论 -
NLP——WordNet;Word Similarity; Word Sense Disambiguition
这个算法的优点在于它同时考虑了词汇在层次结构中的深度和两个词汇之间的距离。使用 Hypernymy Chain 衡量词语相似度的一种常见方法是通过。,这个概率和作为当前节点的概率,这样的话,一个节点的。一种很直观的想法,就是:给定一个节点,计算他所有。从此图中就能看出来,这种方式非常好地区分了。的最低公共祖先在层次结构中的深度。越多,那么这个节点的概率值就越大。一种可能的解决方法就是引入深度信息。根据这个特点,我们引入了。在层次结构中的深度,,他们的共同最低祖先。原创 2023-06-10 19:20:59 · 3423 阅读 · 2 评论 -
NLP——part of speech (POS)中的隐马尔可夫模型 + Viterbi 算法
隐马尔科夫模型的计算基于两个概率Pti∣ti−1Pti∣ti−1和Pwi∣tiP(w_i|t_i)Pwi∣ti,这两个概率都可以通过对数据集进行统计来轻松获得,例如上面图片中的Plike∣VBPlike∣VB和PNN∣DTP(NN|DT)PNN∣DT从Pti∣ti−1Pti∣ti−1我们不禁提问,对于一个tag我们默认第一个tag就是s。原创 2023-06-09 17:44:16 · 1730 阅读 · 0 评论 -
NLP(3) Text Classification
情感分析(Sentiment Analysis),又称为意见挖掘(Opinion Mining),是自然语言处理、文本挖掘和计算语言学交叉领域的一个任务,目的是确定来源材料的情绪态度。高方差可能会导致模型在训练数据上表现良好,但在新的、未见过的数据上表现较差,这通常是由于模型过于复杂(即过拟合),以至于捕捉到了数据的噪声。情感分析的技术方法包括基于词典的方法(依赖情感词典进行评分)、基于机器学习的方法(使用标注数据训练分类器)和深度学习方法(使用神经网络模型,如RNN、CNN和Transformer等)。原创 2023-06-06 18:28:20 · 927 阅读 · 0 评论 -
NLP(2)N-gram language Model (缺了一些平滑的方式介绍)
在自然语言处理(NLP)中,语言模型(Language Models)是用来预测文本序列中下一个单词或者字符的概率分布的模型。语言模型的主要目标是捕捉语言的统计规律,以此来生成自然语言。这是最早的语言模型之一,主要用于捕捉词序列中的n-1阶依赖关系。然而,N-gram模型对于长距离依赖的处理不佳,且模型大小随着n的增大而急剧增大。HMM是一种统计模型,用于描述一个含有未知参数的马尔可夫过程。在NLP中,HMM常被用于词性标注和命名实体识别等任务。原创 2023-06-06 11:31:08 · 577 阅读 · 0 评论 -
NLP(1):Introduction
这种方法通常能得到最好的结果,但它的计算成本是最高的。它是在单词级别上下文无关的,这意味着它不需要预训练的语言模型或词汇表,因此可以很容易地用于任何语言的文本。子词分词可以更好地处理语料库中未见过的单词(OOV,Out-of-Vocabulary)问题,因为即使一个单词在训练集中未出现过,模型也可以通过它的子词来理解它。此外,子词分词也可以有效处理非结构化和不规则的文本,这在许多现实世界的应用中是非常重要的。例如,在一些情况下,单词的大小写可能是有意义的,如 “US”(指美国)和 “us”(指我们)。原创 2023-06-06 00:05:58 · 613 阅读 · 1 评论 -
强化学习之:价值学习Value-Based Learning
Q∗statmaxπEUt∣StstAtatQ∗statπmaxEUt∣StstAtat, 其中ata_tat最初是从π\piπ中随机采样出来的sts_tst是从状态转移函数ps′sap(s',s,a)ps′sa中随机采样出来的当确定了atsta_t, s_tatst之后就可以挑选出当前情况下最大的QQQ值Q∗st。原创 2023-01-31 23:03:14 · 1237 阅读 · 1 评论 -
全网最全、最细的强化学习基础概念文章:随机变量、概率密度函数、期望、随机抽样;state, action, policy, reward, return, value-functions
随机变量、概率密度函数、期望、随机抽样;state, action, policy, reward, return, value-functions原创 2023-01-27 21:29:19 · 1128 阅读 · 0 评论 -
chatGPT:12.12 之后更新的 chatGPT 的本地部署和接口调用,解决 response 403 (无法连接openai服务器)问题
chatGPT 12.12 之后发布的最新版本,一定程度上解决了 response 403 的问题,加入了 playwright 和 cf_clearance 的功能原创 2022-12-13 23:49:45 · 25156 阅读 · 20 评论 -
深度学习之:强化学习 Reinforcement Learning
第一步:定义一个函数:这里的actor就是这个函数对于这个玩游戏的任务,那么输入是当前的环境状态(es),在这里就是当前时刻的游戏影像,我们可以先通过 CNN 来提取这个图像的特征,然后把特征向量放到一个分类网络中得到最终是的三分类问题。在这里这个分类网络就可以看做是这个actor函数,因为他的输出就是针对当前影像的 action假设最后对于的概率分布是那么就代表有 70% 的几率是左移。但是不同于分类任务的是,RL 在这里并不会针对采取left。原创 2022-12-09 21:54:29 · 4479 阅读 · 1 评论 -
BERT 相关资源整理
NLP文档挖宝(3)——能够快速设计参数的TrainingArguments类使用 PyTorch 进行知识蒸馏调节学习率Huggingface简介及BERT代码浅析使用huggingface的Transformers预训练自己的bert模型+FineTuningBERT 预训练预训练模型:从BERT到XLNet、RoBERTa、ALBERTBert如何使用预留的[unused*]BERT 详解Pytorch 保存模型与加载模型BERT相关面试题(不定期更新)【Pytorch】【torc原创 2022-12-03 16:45:22 · 553 阅读 · 0 评论 -
论文代码复现之:AMR Parsing as Sequence-to-Graph Transduction
接着运行如下命令,就会自动对 LDC2017T10 中的数据进行预处理,然后将所有的数据分配到。只需要按照作者 github 的命令即可,要下载的东西挺多的。,我们就把这个数据集解压到。原创 2022-11-14 20:10:09 · 805 阅读 · 4 评论 -
论文代码复现之:GPT-too: A Language-Model-First Approach for AMR-to-Text-Generation(ARM-to-text)
【代码】论文代码复现之:GPT-too: A Language-Model-First Approach for AMR-to-Text-Generation(ARM-to-text)原创 2022-11-14 01:17:39 · 1209 阅读 · 1 评论 -
NLP 学习之:2022.11.7 阶段性文章总结和筛选
一些有参考价值的文章和视频原创 2022-10-28 16:26:40 · 595 阅读 · 0 评论 -
Pytorch学习之:深度剖析NLLLoss和 CrossEntropy 的区别:代码 + 原理 + 为什么有效
与 NLLLoss 的情景一样,我们依然沿用刚才的。['吃', '饭']原创 2022-10-27 16:18:53 · 1158 阅读 · 0 评论 -
NLP学习之:BERT 模型复现(4)模型实现
【代码】NLP学习之:BERT 模型复现(4)模型实现。原创 2022-10-23 02:13:51 · 1043 阅读 · 0 评论 -
NLP学习之:BERT代码复现(3)self-attention 和 MultiHead 多头注意机制
【代码】NLP学习之:BERT代码复现(3)self-attention 和 MultiHead 多头注意机制。原创 2022-10-23 00:33:31 · 1341 阅读 · 0 评论 -
NLP学习之:BERT论文复现(2)token embedding + segment embedding + position embedding
【代码】NLP学习之:BERT论文复现(2)token embedding + segment embedding + position embedding。原创 2022-10-22 20:38:37 · 1933 阅读 · 0 评论 -
NLP学习之:Bert 模型复现(1)任务分析 + 训练数据集构造
Bert 代码复现原创 2022-10-22 02:02:13 · 4600 阅读 · 2 评论 -
Transformer 解读之:用一个小故事轻松掌握 Decoder 端的 Masked Attention,为什么要使用 Mask,Transformer如何解码,何时停止解码过程。
这个部分我想聊一聊 Decoder 端的 attention 与 Encoder 端的不同,以及为什么 Decoder 端一定要使用 Mask 机制还有就是 Decoder 端到底是如何实现解码过程的,他怎么知道解多少个之后停止呢?在进行下面的内容之前,我想再强调一遍:Transformer 中的 attention 的作用是。这些关系最终被编码到一个中,因此 attention 层的输出其实我们其实可以叫它也就是建立 token 与 token 之间关系的过程。原创 2022-10-14 20:24:40 · 2269 阅读 · 3 评论 -
Transformer详解之:Encoder Attention的公式化理解
计算出的是标量值,代表某个词向量与当前词向量的近似度;投影到另外一个空间,然后和其他的词向量(包括自己)计算相似度。维空间中进行投影,至于为什么这么投影,请参考上一篇文章 )如果一句话中的所有 token 都重复这个过程,也就是把。和其他所有 token 的权重关系表示在了这个。和当前句子其他词(包括自己)的关系的编码向量。一个权重值,并将他们加权求和,最终构成的向量。分别相乘最后相加,得到的一个新的向量。三个向量是对当前的某个词向量。个词和其他所有 token 的。,每个 token 的维度是。原创 2022-10-14 18:31:40 · 1247 阅读 · 0 评论 -
Transformer解读之:Transformer 中的 Attention 机制
进行点乘,是不是就可以获得 I 对其他所有单词的值(有几个单词就产生几个值)但是这些值还不能叫做权重,因为相似度计算出的值范围根本不确定;- 最终我们要做的事情,是生成一组张量,这个张量代表着每个词跟其他所有词的关系,是相近还是疏远。是完全一样的东西,都只是线性层的输出而已,但是为了进行后面的操作,我们人为地对这些向量进行区分。这些词向量,也通过相同的方式获得了他们各自的最终和其他词向量在高维空间中的关系表示。向量原本的信息,然后对其他的所有文本也都通过线性层生成他们各自的。向量也是同样的作用,如法炮制。原创 2022-10-12 17:34:54 · 3497 阅读 · 3 评论 -
深度学习之:使用 Hugging face 做知识蒸馏 teacher-bert 到 student-bert
源代码在上面的 github 资源中。原创 2022-10-06 21:52:49 · 1201 阅读 · 1 评论 -
机器学习理论之(15):聚类算法的无监督(unsupervised)评估方式 Cohesion(内聚度),Separation(离散度),Compactness(致密度)
文章目录内聚度 Cohesion离散度 Separation簇致密度 Cluster compactnessProximity 距离衡量方式Hamming 距离度量致密度聚类算法本身是一种无监督算法,但是对于聚类算法的评估方式却存在(supervised)有监督 和 (unsupervised)无监督 两种;本讲主要讲无监督的评估方式,这种评估方式不需要借助标签有监督的评估方式可以参考我的上一篇博客:机器学习理论之(14):聚类算法的有监督(supervised)评估方式:purity v.s.原创 2022-05-27 23:49:26 · 1263 阅读 · 0 评论 -
机器学习理论之(14):聚类算法的有监督(supervised)评估方式:purity v.s. entropy
文章目录纯度 Purity熵 Entropy聚类算法是一类典型的无监督算法,那么为什么还有有监督的评估方式呢?所谓的 “无监督” 算法指的是模型对于数据的训练和划分不依靠数据的标签,但是我们可以用标签来判断这个模型划分的是不是符合我们的要求。纯度 Purity假设对包含 NNN 个样本的数据集,用 kmeans 划分成 kkk 个聚类簇 Ci,...CkC_i,...C_kCi,...Ck,∣Ci∣|C_i|∣Ci∣ 表示的是这个簇中的样本个数,Pi(j)P_i(j)Pi(j) 代表在原创 2022-05-27 23:13:23 · 3377 阅读 · 0 评论 -
机器学习理论之(13):感知机 Perceptron;多层感知机(神经网络)
文章目录表示学习 (representation Learning)生物神经元 V.S. 人造神经元感知机 (Perceptron)训练感知机(Training Perceptron)表示学习 (representation Learning)表示学习是神经网络的一个常见应用例如图像相关的任务,数据的特征维度太高(通常在几十万上百万的维度,因为图像的每个像素点都是一个特征)深度学习中常用 embedding 来对高维度数据进行处理,将其重新编码成维度较低的特征。深度网络可以通过学习 embedd原创 2022-05-26 15:28:19 · 3848 阅读 · 2 评论 -
机器学习理论之(12):模型评估II——模型偏差/方差;评估偏差/方差;模型泛化性评估
文章目录Evaluation 第一阶段交叉验证混淆矩阵精确度 & 错误率Evaluation 第二阶段泛化性过拟合 overfitting过拟合的原因欠拟合 underfitting训练曲线观察泛化性Example 1Example 2模型偏移和方差(bias and variance)公式定义偏差 Bias方差 Variance目前已经学习了多种机器学习模型:朴素贝叶斯逻辑回归SVMKNN决策树随机森林等集成学习算法也学习了特征选择等有效的提升模型精度的方法今天在这部分内原创 2022-05-24 13:04:22 · 1442 阅读 · 0 评论 -
机器学习理论之(11):基于样本的学习(instance-based learning)——KNN 算法
文章目录什么是 Instance-based learning如何比较样本(Comparing Instances)特征向量 (Feature Vectors)特征向量的度量(Similarity / Distance)相似度 (Similarity)余弦相似度(Cosine Similarity)距离(Distance)欧几里得距离 (Euclidean Distance)曼哈顿距离(Manhattan Distance)Hamming 距离Instance-Based 分类器最近邻分类器(Nearest原创 2022-05-23 23:58:30 · 1801 阅读 · 0 评论 -
机器学习理论之(10):ID-3 决策树
文章目录0-R(Zero-R)1-R(one-R)从 1-R 到决策树ID-3决策树决策树的分支条件——不纯度Entropy决策树的特征选择——信息增益信息增益(Information Gain)平均信息(mean information)信息增益的缺陷(shortcoming of IG)分离信息 (Split Information)信息增益比(Gain Ratio)决策树对于样本的预测见过的样本未见过的特征决策树的深度 & 性能关于ID-3决策树的讨论ID-3 的优点ID-3 的缺点0-R(原创 2022-05-23 21:54:29 · 1454 阅读 · 0 评论 -
机器学习理论之(9):特征选择 Feature Selection
文章目录为什么要进行特征选择特征选择的主要目标其他目标特征选择的方法Filtering 过滤法Pointwise Mutual Information (PMI) 逐点互信息法Mutual information (MI) 互信息法χ2\chi^2χ2卡方检验Wrapper 包装法AdvantagesDisadvantages可实现的 Wrapper 方法sequential forward selectionsequential backward selection模型选择的常见问题特征类型类别、标签 (原创 2022-04-23 21:35:43 · 4587 阅读 · 1 评论 -
机器学习理论之(8):模型集成 Ensemble Learning
文章目录集成学习的思路多个分类器的结果一定好么什么时候模型集成有效如何构造基分类器如何通过基分类器进行分类模型的泛化误差分类器集成方法装袋法 Bagging随机森林法 Random Forest演进法 BoostingAdaBoostBagging / Random Forest 以及 Boosting 对比堆叠法 Stacking集成学习的思路通过构造多个基分类器(base classifier)将这些基分类器的分类结果进行集成来得到最终的预测结果模型集成的方法基于下面的直觉:多个模型的总和原创 2022-04-23 12:38:12 · 2121 阅读 · 0 评论