- 博客(683)
- 资源 (5)
- 问答 (1)
- 收藏
- 关注
原创 聚类(Clustering)基础知识3
3个簇和5个簇比较糟糕:因为存在低于平均轮廓分数的聚类,轮廓图的大小波动很大。4个簇轮廓分数高,且每个簇的轮廓大小比较均衡。2个簇轮廓分数高,但2个簇的大小不均衡。聚类很难评估,但实际应用中很有用。最小簇间距离/最大簇的半径。到与其所属簇中其它点的平均距离。对于其中的一个样本点。SI值小的点为边缘点。
2025-03-30 23:10:32
656
原创 聚类(Clustering)基础知识2
知识回顾问题描述给定NNN个样本点X={xi}i=1NX = \{x_i\}_{i=1}^NX={xi}i=1N进行聚类。输入数据集 D={x1,x2,...,xN}D = \{x_1, x_2, ..., x_N\}D={x1,x2,...,xN},簇数目为KKK。算法步骤时间复杂度以下是K均值聚类算法的运行过程示意图,展示了算法在不同迭代次数下的变化情况: 在每次迭代中,算法首先随机选择KKK个数据点作为初始簇中心(Iteration 1)。然后,算法将每个数据点指派到最近的簇中心(Ite
2025-03-30 22:36:24
899
原创 聚类(Clustering)基础知识1
聚类是一种数据分析方法,旨在发现数据中分组聚集的结构。根据数据中样本与样本之间的距离或相似度,将样本划分为若干组/类/簇(cluster)。簇内的点与其“中心”较为相近(或相似),和其他簇的“中心”较远,这样的一组样本形成的簇。簇的中心常用质心(centroid)表示,即簇内所有点的平均,或用中心点(medioid)表示,即簇内最有代表性的点。基于概念的簇:同一个簇共享某种性质,这个性质是从整个结合推导出来的。使用相似性/距离函数。
2025-03-30 14:18:23
1010
原创 降维(DimensionalityReduction)基础知识2
令 x1,x2,...,xN∈RDx_1, x_2, ..., x_N \in \mathbb{R}^Dx1,x2,...,xN∈RD,构造相似性图,表示结点之间的邻接关系: - ε\varepsilonε邻域 - KKK近邻 通过对图的拉普拉斯矩阵进行特征值分解,得到映射(eigenmap) 邻接矩阵(Affinity matrix)WWW的元素wijw_{ij}wij表示结点viv_ivi和vjv_jvj的相似度,即为边eije_{ij}eij的权重。 通常两个结点之间的相
2025-03-28 19:51:34
1087
原创 降维(DimensionalityReduction)基础知识1
数据空间的维度可能非常大。我们可以通过一些例子来理解高维数据的概念。 下图展示了不同类型的高维数据:三维散点图:图中展示了一个三维空间中的数据分布。可以看到,数据点在空间中形成了不同的簇,这有助于我们理解数据的结构和模式。人脸图像:这组图像展示了不同人脸的高维特征。每个图像都可以看作是一个高维向量,包含了像素值等信息。文档:文档也可以表示为高维向量,其中每个维度可能代表一个特定的词汇或特征。基因表达数据:这类数据通常包含成千上万的基因表达水平,基因每个可以看作是一个维度。MEG(脑磁图)读数:
2025-03-27 16:08:47
430
原创 自2000-2024年的自然语言处理及大模型相关的18篇经典论文汇总
以上论文涵盖了自然语言处理和大模型领域的关键进展,从词向量到预训练模型,再到多模态和生成式AI,展示了NLP技术的快速演进。如果需要更详细的论文列表或具体内容,可以参考相关资源。
2025-03-21 21:11:38
1216
原创 LiteratureReading:[2023] GPT-4: Technical Report
OpenAI 是一个致力于发展通用人工智能(AGI)的非营利性研究组织,它由Elon Musk、Sam Altman、Greg Brockman、Ilya Sutskever等人于2015年共同创立。OpenAI 的目标是确保人工智能技术的发展能够惠及全人类,并且以安全和负责任的方式推进。OpenAI 开发了一系列重要的人工智能模型和工具,包括但不限于GPT(生成预训练转换器)系列模型,这些模型在自然语言处理领域取得了显著的成就。
2025-03-21 20:55:52
1202
原创 LiteratureReading:[2022] Reformer: The Efficient Transformer
所属机构:加州大学伯克利分校(U.C. Berkeley)和谷歌研究(Google Research)。电子邮件:kitaev@cs.berkeley.edu所属机构:谷歌研究(Google Research)。电子邮件:lukaszkaiser@google.com所属机构:谷歌研究(Google Research)。电子邮件:levskaya@google.com大型Transformer模型在许多任务上通常能够达到最先进的结果,但训练这些模型可能非常昂贵,尤其是在处理长序列时。
2025-03-21 20:43:22
635
原创 LiteratureReading:[2021] Learning Transferable Visual Models From Natural Language Supervision
作者名单及贡献:等贡献作者,通讯作者之一。:等贡献作者,通讯作者之一。Jack Clark机构信息所有作者均隶属于OpenAI,位于美国加利福尼亚州旧金山,邮编为94110。通讯作者和为通讯作者,负责与期刊编辑和读者的联系。这种整理方式清晰地展示了每位作者的贡献、所属机构以及联系方式,便于读者了解论文的作者背景并进行进一步的学术交流。最先进的计算机视觉系统被训练来预测一组固定的预定义对象类别。这种受限的监督形式限制了它们的通用性和可用性,因为需要额外的标记数据来指定任何其他视觉概念。
2025-03-21 19:50:52
900
原创 LiteratureReading:[2019] BioBERT: a pre-trained biomedical language representation model for……
和这两位作者的名字后面有相同的标记(1,†),表示他们对论文的贡献是相等的,即共同第一作者。他们隶属于韩国大学计算机科学与工程系,位于韩国首尔。隶属于Clova AI研究部门,Naver Corp.,位于韩国首尔。和Sunkyu Kim这两位作者同样隶属于韩国大学计算机科学与工程系,位于韩国首尔。Chan Ho So隶属于韩国大学生物信息学跨学科研究生项目,位于韩国首尔。
2025-03-21 19:22:55
705
原创 LiteratureReading:[2022] ChatGPT: LargeScaleGenerativePretrainingforConversationalResponseGeneration
[2022] ChatGPT: Large-Scale Generative Pre-training for Conversational Response Generation** 作者:OpenAI 贡献:提出了ChatGPT模型,展示了生成式预训练模型在对话任务中的强大能力。
2025-03-21 15:26:17
782
原创 LiteratureReading:[2020] ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generator
机构:斯坦福大学(Stanford University)电子邮件备注:Kevin Clark是斯坦福大学的研究人员,专注于计算机科学领域。机构电子邮件备注:Minh-Thang Luong是Google Brain团队的成员,Google Brain是Google的一个研究项目,专注于人工智能和机器学习。Quoc V. Le机构电子邮件备注:Quoc V. Le同样隶属于Google Brain,参与人工智能和机器学习的研究。机构:斯坦福大学 & CIFAR Fellow电子邮件备注。
2025-03-21 14:57:42
715
原创 LiteratureReading:[2019] XLNet: Generalized Autoregressive Pretraining for Language Understanding
这段文字列出了论文《XLNet: Generalized Autoregressive Pretraining for Language Understanding》的作者名单及其所属机构,以及他们的电子邮件地址。(杨植麟)所属机构:卡内基梅隆大学(Carnegie Mellon University)电子邮件:rhiliny@cs.cmu.eduZihang Dai(戴子航)所属机构:卡内基梅隆大学(Carnegie Mellon University)和Google AI Brain Team。
2025-03-21 14:14:45
996
原创 LiteratureReading:[2020] Exploring the Limits of Transfer Learning with a Unified Text-to-Text Trans
可能是这篇论文的主要作者之一,通常位于列表的首位。另一位主要作者,可能在研究中扮演了重要角色。同样是主要作者之一,参与了研究工作。参与了研究,可能是论文的共同作者。贡献了研究工作,是论文的作者之一。参与了研究,是论文的共同作者。Yanqi Zhou参与了研究,是论文的作者之一。Wei Li贡献了研究工作,是论文的共同作者。参与了研究,是论文的作者之一。此外,论文的编辑是Ivan Titov。这些作者的联系地址是位于美国加利福尼亚州山景城的Google公司。
2025-03-20 13:29:48
946
原创 LiteratureReading:[2019] Language Models are Unsupervised Multitask Learners (GPT-2)
…自然语言处理任务,例如问答、机器翻译、阅读理解和文本摘要,通常采用在特定任务数据集上进行监督学习的方法。我们展示了当语言模型在一个新的包含数百万网页的WebText数据集上进行训练时,无需任何明确的监督,语言模型就能开始学习这些任务。当模型在给定文档和问题的情况下进行条件化,生成的答案在CoQA数据集上达到了55的F1分数,匹配或超过了4个基线系统中3个的性能,而没有使用127,000多个训练样本。语言模型的能力对于零样本任务迁移的成功至关重要,并且增加其能力可以在任务间以对数线性的方式提高性能。
2025-03-20 12:39:40
642
原创 LiteratureReading:[2018] BERT: Pre-training of Deep Bidirectional Transformers for Language Understa
是Google AI Language团队的一名研究人员,参与了BERT模型的开发工作,对自然语言处理领域有重要贡献。:同样隶属于Google AI Language团队,也是BERT模型开发团队的重要成员之一。Kenton Lee:作为Google AI Language团队的成员,Kenton Lee在自然语言处理技术的研究和开发中扮演了关键角色。:是Google AI Language团队的一名资深研究员,对BERT模型的研究和开发做出了显著贡献。
2025-03-20 12:19:23
613
原创 集成学习(Ensemble Learning)基础知识3
XGBoost(eXtreme Gradient Boosting)是一种高效的梯度提升算法,具有以下特点:自定义损失函数:XGBoost 允许用户自定义损失函数,通过二阶泰勒展开来近似损失函数。正则化项:包含叶子节点数目和叶子节点的分数的正则化项,有助于防止过拟合。建树- 支持分裂点近似搜索- 稀疏特征处理- 缺失值处理并行计算:提高训练效率。内存缓存:优化内存使用。深入理解XGBoost。
2025-03-20 11:55:49
1176
原创 集成学习(Ensemble Learning)基础知识2
前文链接 Boosting是一种集成学习算法,它通过组合多个弱学习器来构建一个强分类器。 Boosting学习框架: 弱学习器是按顺序学习的。 Boosting的核心思想是逐步提高模型的性能。首先,我们训练一个基础的弱学习器,然后我们训练第二个弱学习器,它专注于第一个模型预测错误的样本。这个过程不断重复,每个新的弱学习器都试图纠正前一个模型的错误。最后,我们将所有弱学习器的预测结果加权组合,形成最终的强学习器。 这种方法的优点是它可以显著提高模型的准确性,特别是当弱学习器的性能略优于随机猜测时。然
2025-03-20 11:54:13
1114
原创 集成学习(Ensemble Learning)基础知识1
需要注意的是,上述推导假设基学习器之间是相互独立的。每个决策树都是在数据集的一个Bootstrap样本上训练的,因此它们可能会犯不同的错误,当这些树的预测结果被平均时,一些错误可能会相互抵消,从而降低整体的方差。每个基学习器都是在数据的不同子集上训练的,因此它们可能会犯不同的错误,当这些模型的预测结果被整合时,可以相互抵消一些错误,从而得到更准确的预测。每个基模型都是在数据的不同子集上训练的,因此它们可能会犯不同的错误,当这些模型的预测结果被整合时,可以相互抵消一些错误,从而得到更准确的预测。
2025-03-20 11:52:15
874
原创 LiteratureReading:[2018] Improving Language Understanding by Generative Pre-Training (GPT-1)
这张图片列出了四位与 OpenAI 相关的研究人员及其电子邮件地址。Alec Radford 是 OpenAI 的研究人员之一,他在人工智能和机器学习领域有丰富的研究经验。他参与了多个重要的项目,包括 GPT(G Preenerative-trained Transformer)系列模型的研究和开发。Karthik Narasimhan 同样是 OpenAI 的研究人员,专注于自然语言处理和机器学习。他的工作涉及开发能够理解和生成自然语言的模型,对提升语言理解和生成能力有重要贡献。
2025-03-20 11:51:00
913
原创 LiteratureReading:[2017] Attention Is All You Need
隶属于Google Brain团队,Google Brain是Google的一个研究项目,专注于人工智能和机器学习的研究。他的电子邮件地址是avaswani@google.com。- 同样隶属于Google Brain团队,电子邮件地址为noam@google.com。- 隶属于Google Research,这是Google的一个研究部门,负责广泛的技术研究,包括机器学习、计算机视觉等。电子邮件地址是nikip@google.com。
2025-03-19 17:32:29
703
原创 LiteratureReading:[2015] Neural Machine Translation of Rare Words with Subword Units
可能是一位研究人员或学者,专注于自然语言处理或机器翻译领域。- 同样可能是一位研究人员或学者,可能与Rico Sennrich在同一研究领域工作。- 也是一位研究人员或学者,可能与前两位作者合作进行研究。他们均隶属于爱丁堡大学的信息学院(School of Informatics, University of Edinburgh)。这是一所位于苏格兰首府爱丁堡的世界著名学府,以其在计算机科学、人工智能和信息学等领域的研究而闻名。此外,还提供了他们的电子邮件地址,格式为。
2025-03-19 17:09:41
544
原创 LiteratureReading:[2014] Sequence to Sequence Learning with Neural Networks
所属机构:Google电子邮件:ilyasu@google.comIlya Sutskever 是一位著名的人工智能研究员,他在深度学习和神经网络领域做出了重要贡献。他是OpenAI的联合创始人之一,并且在Google担任重要职位。所属机构:Google电子邮件:vinyals@google.comOriol Vinyals 是一位在机器学习和自然语言处理领域有显著贡献的研究员。他在Google的研究团队中工作,专注于开发先进的算法和技术。Quoc V. Le所属机构:Google。
2025-03-19 16:35:38
965
原创 LiteratureReading:[2016] Enriching Word Vectors with Subword Information
这段文字是一篇学术论文或报告的作者信息部分。它列出了四位作者的名字,以及他们所属的机构和联系邮箱。:名字后有星号(*),可能表示他是论文的主要作者或通讯作者。:名字后有星号(*),同样可能表示他是论文的主要作者或通讯作者。和:这两位作者没有特别的标记,表明他们也是论文的共同作者。他们所属的机构是,即 Facebook 的人工智能研究部门,这是一个专注于人工智能和机器学习研究的团队。联系邮箱是,这意味着每位作者的邮箱地址由他们的名字组成,域名是fb.com,这是 Facebook 公司使用的域名。
2025-03-19 13:52:10
1139
原创 LiteratureReading:[2014] GloVe: Global Vectors for Word Representation
斯坦福大学计算机科学系的成员。- 同样隶属于斯坦福大学计算机科学系。- 也是斯坦福大学计算机科学系的成员。这三位作者都与斯坦福大学(Stanford University)有关联,该大学位于美国加利福尼亚州的斯坦福市(Stanford, CA 94305)。- 这是Jeffrey Pennington的电子邮件地址。- 这是Richard Socher的电子邮件地址。- 这是Christopher D. Manning的电子邮件地址。
2025-03-18 20:18:09
1107
原创 LiteratureReading:[2013]Efficient Estimation of Word Representations in Vector Space
我们提出了两种新的模型架构,用于从非常大的数据集中计算词的连续向量表示。这些表示的质量通过一个词相似度任务来衡量,并将结果与基于不同类型的神经网络的先前表现最好的技术进行比较。我们观察到在准确性上有显著提高,同时计算成本大大降低,即从16亿词的数据集中学习高质量的词向量只需不到一天的时间。此外,我们展示了这些向量在我们的测试集上提供了最先进的性能,用于衡量句法和语义词相似度。在本文中,我们研究了各种模型在一系列句法和语义语言任务上派生的词向量表示的质量。
2025-03-18 19:49:27
701
原创 支持向量机(Support Vector Machine)基础知识2
支持向量机(SVM)的原始问题可以通过传统的凸二次规划方法获得全局最优解。然而,这种方法在训练数据集很大时,算法会变得很慢。 SMO算法由John Platt在1998年提出,是一种高效求解SVM对偶问题的方法。 对偶问题可以表示为:max(∑i=1Nαi−12∑i=1N∑j=1NαiαjyiyjxiTxj)s.t. ∑i=1Nαiyi=00≤αi≤C,i=1,2,…,N\begin{align*}\max \left( \sum_{i=1}^{N} \alpha_i - \frac{1}{
2025-03-18 14:09:54
857
原创 支持向量机(Support Vector Machine)基础知识1
- 假定线性判别函数为:f(x)=wTx+bf(x) = \mathbf{w}^T x + bf(x)=wTx+b - 如果f(x)=wTx+b=0f(x) = \mathbf{w}^T x + b = 0f(x)=wTx+b=0,那么xxx是位于超平面上的点 - 不妨假设:所有满足f(x)<0f(x) < 0f(x)<0 的点,其对应的yyy等于-1 - 所有满足f(x)>0f(x) > 0f(x)>0 的点,其对应的yyy等于1 - 最大间隔原则:最大化两个类最近点之间的距离 令线性
2025-03-18 13:35:36
1181
原创 【大模型应用开发】基于Flask框架的聊天机器人云服务器部署
如果你想使用更低版本的Python,如Python3.10,需要安装第三方库才能下载管理其他版本的Python(低版本)。那么,如果你对Pyhton的版本没有明确的需求,而且一般来说更高的python版本往往是向下兼容的。当你拥有了自己的服务器并下载好了连接工具,接下来就是通过远程连接服务器进行一些软件的下载并上传项目并上线部署了。将你的项目端口的安全组打开,这样你的项目就可以让他人在网址通过ip:端口号查看了。连接好之后,需要有一定的Linux操作指令基础,就可以正常使用你的服务器了。
2025-03-13 17:40:15
983
1
原创 【大模型应用开发】基于微信聊天数据的大模型微调
你是否觉得与大模型的聊天方式太过于人机没有人情味儿?你是否想微调一个属于自己的大模型能用你的聊天风格去让人真假难辨?如果你也有类似的想法,此篇文章将将你的idea转化成现实、首先你需要具备科学上网的能力。
2025-03-11 17:28:50
844
原创 对数几率回归(LogisticRegression)基础知识(包含分类任务的概念及评价指标)
在开始本篇之前,先来规范一下“叫法”。因为我看网上很多人把“LogisticRegression”’称为“逻辑回归”,从实际意思上讲“逻辑”的英文词是Logic,而不是Logistic,logistics是后勤补给的意思,源自法语lodge(住宿),所以这个词跟逻辑一点关系都没有,算法本身也不是强调逻辑,再从音译方面讲,Logistic音译也应该是“逻辑斯蒂”而不是“逻辑”。所以下面引用著名的西瓜书作者周志华的评论,称之为对数几率回归,才更为准确和专业。 对数几率回归模型主要应用在分类任务上,下面我们
2025-03-05 21:04:26
850
原创 随机森林(Random Forest)基础知识与案例分析
随机森林属于集成学习里面Bagging模型的一种,关于什么是集成学习,什么是Bagging,我会单独在集成学习章节中详细讲解,因为我们刚学习过决策树算法,所以随机森林(Random Forest)和决策树(Decision Tree)之间的关系可以简单地理解为:随机森林是由多个决策树组成的集成学习模型。在随机森林中,每个决策树都是独立构建的,并且在构建过程中引入了随机性。最终,随机森林通过投票或平均的方式,将所有决策树的预测结果组合起来,得到最终的预测结果。12n12n。
2025-03-04 20:53:58
1077
原创 决策树(Decision Tree)案例分析
图中每个条形的高度表示对应特征的重要性值,值越大表示该特征对模型预测的贡献越大。从图中可以看出,petal-width 特征的重要性远高于其他特征,说明它对模型的预测能力贡献最大。其次是 petal-length,然后是 sepal-width,最后是 sepal-length。从模型输出来看,训练集的准确率达到了 1.0,这表明模型在训练集上表现完美。然而,这可能是一个过拟合的迹象,尤其是当测试集的准确率远低于训练集时。这个图像是一个决策树的可视化图,展示了决策树的结构和决策路径。
2025-03-04 17:45:48
1278
2
原创 决策树(Decision Tree)基础知识
- 函数族 F\mathcal{F}F:这是一个函数的集合,其中的每个函数 fff 都属于这个集合,即 f∈Ff \in \mathcal{F}f∈F。 - 目标函数 J(f)J(f)J(f):这个函数用来衡量函数 fff 的性能或质量。它是一个评价标准,帮助我们了解函数的好坏。 - 优化算法:我们的目标是找到一个函数 f∗f^*f∗,它在函数族 F\mathcal{F}F 中使得目标函数 J(f)J(f)J(f) 的值最小。用数学表达式表示就是 f∗=argminfJ(f)f^* = \arg
2025-03-04 16:29:06
1487
原创 二分类(binary classification)案例分析1
数据探索(DE)数据集共有905条记录,10列。其中,Type2有456个缺失值,其他列无缺失值。数据类型主要为数值型和类别型。数据分析(DA)身高与体重分布身高和体重的分布图显示数据呈右偏分布,部分宝可梦的身高和体重异常高。传说宝可梦的身高和体重分布较为集中,而非传说宝可梦分布较分散。相关性分析身高和体重与传说状态的相关性较弱,说明这些特征对分类的直接贡献有限。小提琴图小提琴图显示传说宝可梦的身高和体重分布更集中,而非传说宝可梦的分布更分散。特征工程(FE)缺失值处理使用。
2025-03-02 15:15:33
953
原创 线性回归 (Linear Regression)案例分析2
两年每天的骑行量以及当天的天气情况731个样本,没有缺失值每个样本有12个特征:时间信息:年、季节、月份、日期、星期、是否为工作日、是否为节假日天气情况:天气概况(晴、阴、小雨雪、大雨雪)、湿度、温度、体感温度、风速标签:骑行量有些特征相关性很高(季节与月份、温度与体感温度),冗余大数值型特征做标准化处理:湿度、温度、体感温度、风速特征类别型特征取值均不多,独热编码:季节、月份、星期、天气概况二值特征编码为0/1:年份、是否为工作日、是否为节假日。
2025-02-27 20:10:02
870
原创 线性回归 (Linear Regression)案例分析1
虽然标准正态分布的均值为 0,标准差为 1,但并不是说处理后的特征必须服从正态分布。标准化处理后,特征的分布形状可能仍与原始分布相似(只要经过均值和方差的调整即可))。特征均为数值型特征,暂时不做过多处理,只是对特征做。超参数调优评价指标:MSE(红色竖线为最佳超参数)(数据的离散程度被统一为相同的尺度)(数据集中随机80%样本为训练数据。(数据围绕 0 中心化)、,使得各特征处理后均为。读取数据并查看列属性。
2025-02-26 22:42:33
950
原创 特征工程 (Feature Enginering)基础知识2
机器学习项目的开发过程可以分为三个主要阶段:数据准备、模型训练和性能评估。 - 数据收集:首先,我们需要明确项目的目标任务,分析可能的相关特征,并收集相应的数据。 - 特征探索分析:对收集到的数据进行初步的探索性分析,以了解数据的基本特性和潜在的模式。 - 特征工程:将原始数据转换成算法所需的输入格式,这一步骤对于提高模型的性能至关重要。 - 确定机器学习算法(函数集合)F\mathcal{F}F:根据项目需求和数据特性,选择合适的机器学习算法。 - 模型训练:在给定超参数的情况下,通过
2025-02-25 21:27:43
61
党史(主题可替换)知识学习系统源文件
2024-02-21
《诗梦游记》项目源文件
2024-02-21
医疗病例数据信息(共1193条病例信息)
2024-02-21
基于Flask框架的图像识别小程序
2024-02-21
基于Flask框架的医疗专家系统小程序
2024-02-21
深度学习实验报告+代码
2022-11-15
这算不算是本末倒置,这种学习方式效果真的好吗?
2021-12-23
TA创建的收藏夹 TA关注的收藏夹
TA关注的人