自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

chen695969的博客

主要发人工智能方面的技术文章,其中包括机器学习,深度学习,自然语言处理等等,接人工智能方面的实验一对一指导

  • 博客(134)
  • 收藏
  • 关注

原创 【大模型LLM面试合集】有监督微调_微调

通常,大型模型和较大的批次大小可能需要较大的显存容量。建议在进行微调之前评估和测试所用计算平台的显存容量,并根据实际情况进行调整。

2025-03-14 14:17:02 1048

原创 【大模型LLM面试合集】有监督微调_基本概念

这样,模型就可以适应新的任务,计算开销更少,标记的例子也更少。尽管PEFT是一个相对较新的概念,但自从引入迁移学习以来,更新最后一层模型已经在计算机视觉领域得到了实践。即使在NLP中,静态和非静态词嵌入的实验也很早就进行了。参数高效微调旨在提高预训练模型(如BERT和RoBERTa)在各种下游任务上的性能,包括情感分析、命名实体识别和问答。它在数据和计算资源有限的低资源设置中实现了这一点。它只修改模型参数的一小部分,并且不容易过度拟合。参数高效的微调。

2025-03-14 14:14:39 728

原创 【大模型LLM面试合集】分布式训练_总结

数据并行,由于其原理相对比较简单,是目前使用最广泛的分布式并行技术。。我们首先以PyTorch 数据并行的发展(DataParallel、DistributedDataParallel、FullyShardedDataParallel)为主线进行讲述了数据并行的技术原理。同时,也简述了 DeepSpeed 中的增强版数据并行ZeRO。

2025-03-13 10:29:57 921

原创 【大模型LLM面试合集】分布式训练_moe并行

本文简要介绍了目前业界的一些 MOE 并行方案。如果说Transformer结构使得模型突破到上亿参数量,那么稀疏 MoE 结构可以在不显著增加计算成本的情况下,使模型参数量进一步突破,达到上千亿、万亿规模。虽然,1990年左右 MOE 的概念就已经出现了;但是可以预见,MOE 将在通往AGI的道路上扮演越来越重要的角色。

2025-03-13 10:26:22 1169

原创 【大模型LLM面试合集】分布式训练_多维度混合并行

本文主要讲解了常见的大模型分布式并行技术的组合策略,同时,也讲述了目前业界的一些大模型所使用的并行策略,具体如下表所示。模型DPTPPPZeRO StageGPUsFP16/BF16Bloom-176B8412ZeRO-1384 张 A100 80GBBF161928ZeRO-21,536 张 Ascend 910 32GBFP16GLM-130B2448ZeRO-1768 张 A100 40GFP16OPT-175B1248✅。

2025-03-02 10:00:00 566

原创 【大模型LLM面试合集】分布式训练_自动并行

本文介绍了自动并行技术在深度学习中的应用,旨在简化分布式并行策略选择,分全自动与半自动两种模式。Mesh-TensorFlow通过给张量各维命名,将设备视为矩阵,实现任意维度分割,但需重写模型且不支持自动搜索最优布局;GSPMD采用张量分片注解,在XLA基础上统一实现多种并行策略;FlexFlow构建SOAP搜索空间,通过执行模拟器评估策略性能并自动选优;Alpa则融合算子内外并行,利用动态规划和整数规划划分流水线与细化分片,成为自动并行的集大成者。

2025-03-02 10:00:00 738

原创 【大模型LLM面试合集】分布式训练_张量并行

本文主要针对 Megatron-LM 和 Colossal-AI 的张量并行方案进行了讲解。其中,Megatron-LM 提出了一种高效的一维(1D)张量并行化实现。这种方法虽然将参数划分到多个处理器上,但每个处理器仍需要存储整个中间激活,在处理大模型时会消耗大量的显存空间。此外,由于仅采用1维矩阵划分,在每次计算中,每个处理器都需要与其他所有处理器进行通信;因此,通信成本会随并行度增高而激增。显然,1维张量并行已无法满足当前超大AI模型的需求。

2025-03-01 10:00:00 1638

原创 【大模型LLM面试合集】分布式训练_序列并行

总的来说,Colossal-AI 的序列并行是为了打破单设备上序列长度的限制。而 Megatron-LM 的序列并行是在显存上面下了功夫,可以用更少的设备去运行大模型。除此之外,从文章细节里面可以看到,部分的计算的冗余被消除了,且重叠了一部分的通信,使得设备可以花更多的时间用于计算上面。虽然,Colossal-AI 和 Megatron-LM 都有序列并行,但是两者解决的问题、方法都不一样。除此之外,在Pytorch中,也已经支持序列并行了。

2025-03-01 10:00:00 1567

原创 【大模型LLM面试合集】分布式训练_流水线并行

所谓流水线并行,就是由于模型太大,无法将整个模型放置到单张GPU卡中;因此,将模型的不同层放置到不同的计算设备,降低单个计算设备的显存消耗,从而实现超大规模模型训练。如下图所示,模型共包含四个模型层(如:Transformer层),被切分为三个部分,分别放置到三个不同的计算设备。即第 1 层放置到设备 0,第 2 层和第三 3 层放置到设备 1,第 4 层放置到设备 2。相邻设备间通过通信链路传输数据。

2025-02-07 09:00:00 1502

原创 【大模型LLM面试合集】分布式训练_显存问题

大模型也分为,一般模型的规格会体现在模型的名称上,例如 LLaMA2-13b,13b 就是其模型参数量的大小,意思是 130亿的参数量。大模型的文件大小与其参数量有关,通常大模型是以半精度存储的, Xb 的模型文件大概是 2X GB多一些,例如 13b 的模型文件大小大约是 27GB 左右。

2025-02-06 09:00:00 333

原创 【大模型LLM面试合集】分布式训练_数据并行

本文主要讲解了大模型分布式训练并行技术的数据并行,并以Pytorch为主线讲解了DP、DDP、FSDP三种不同的数据并行方案。单进程多线程模式,由于锁的机制导致线程间同步存在瓶颈。使用普通的All-Reduce机制,所有的卡需要将梯度同步给0号节点,并由0号节点平均梯度后反向传播,再分发给所有其他节点,意味着0号节点负载很重。由于第二点的原因,导致0号GPU通讯成本是随着GPU数量的上升而线性上升的。不支持多机多卡。目前,由于性能问题,DP基本不用了。

2025-02-06 09:00:00 810

原创 【大模型LLM面试合集】分布式训练_概述

数据并行是最常见的并行形式,因为它很简单。在数据并行训练中,数据集被分割成几个碎片,每个碎片被分配到一个设备上。这相当于。每个设备将持有一个完整的模型副本,并在分配的数据集碎片上进行训练。在反向传播之后,模型的梯度将被全部减少,以便在不同设备上的模型参数能够保持同步。典型的数据并行实现:PyTorch DDP。

2025-02-05 17:02:00 973

原创 【大模型LLM面试合集】训练数据_数据格式

在这个示例中,(1代表正例,0代表负例)。每一行代表一个样本,第一列是输入数据,第二列是对应的标签。需要注意的是,具体的数据集格式可能会因任务类型、数据来源和使用的深度学习框架而有所不同。因此,在进行SFT训练时,建议根据具体任务和框架的要求来定义和处理数据集格式。

2025-02-05 16:52:50 1301

原创 【大模型LLM面试合集】大语言模型架构_解码策略(Top-k & Top-p & Temperatu)

在大模型训练好之后,如何对训练好的模型进行解码(decode)是一个火热的研究话题。一般给模型传入的解码参数如下所示。在自然语言任务中,通常使用一个预训练的大模型(比如GPT)来根据给定的输入文本(比如一个开头或一个问题)生成输出文本(比如一个答案或一个结尾)。为了生成输出文本,需要让模型逐个预测每个 token ,直到达到一个终止条件(如一个标点符号或一个最大长度)。在每一步,模型会给出一个概率分布,表示它对下一个单词的预测。

2025-02-05 16:48:41 769

原创 【大模型LLM面试合集】大语言模型架构_Transformer架构细节

训练上的意义:随着词嵌⼊维度d_k的增⼤, q * k 点积后的结果也会增⼤, 在训练时会将 softmax函数推入梯度⾮常⼩的区域, 可能出现梯度消失的现象, 造成模型收敛困难.数学上的意义: 假设q和k的统计变量是满⾜标准正态分布的独⽴随机变量, 意味着q和k满⾜均 值为0, ⽅差为1。** 那么q和k的点积结果就是均值为0, ⽅差为**dkd_kdk​, 为了抵消这种⽅差被放⼤dkd_kdk​** 倍的影响, 在计算中主动将点积缩放**​1dk​dk​1​。

2025-02-05 16:44:52 954

原创 「GAN 在 CIFAR-100 上的高质量图像生成:完整可复现代码与卓越实验成果」

生成对抗网络(GAN)是一种强大的深度学习框架,由两部分组成:生成器和判别器。生成器负责生成尽可能真实的图像,而判别器的任务是判断这些图像是否真实。在训练过程中,生成器和判别器通过博弈来提升各自的能力,最终达到生成器能够生成高质量图像的效果。在本实验中,我选择了。

2025-02-02 09:00:00 729

原创 用 Wide-ResNet 打出 79% 准确率!完整源码公开,一文带你复现 CIFAR-100 分类实验

ResNet(Residual Network)最早由微软研究院提出,通过使用残差结构(Residual Block)有效缓解了深度神经网络中出现的梯度消失或梯度爆炸等问题。同时,残差结构也让网络能在保持较深层数的同时依旧有良好的训练效果。是对 ResNet 的改进版本,论文提出可以在增加网络宽度(即 channel 数)而不是盲目加深网络深度的情况下,获得更强的表达能力和更好的性能表现。相比于很深的 ResNet,Wide-ResNet 通常能在较少的训练时间内取得相当甚至更高的准确率。

2025-02-02 09:00:00 1104

原创 【大模型LLM面试合集】大语言模型架构_MHA_MQA_GQA

GQA-N 是指具有 N 组的 Grouped Query Attention。GQA-1具有单个组,因此具有单个Key 和 Value,等效于MQA。而GQA-H具有与头数相等的组,等效于MHA。GQA介于MHA和MQA之间。GQA 综合 MHA 和 MQA ,既不损失太多性能,又能利用 MQA 的推理加速。不是所有 Q 头共享一组 KV,而是分组一定头数 Q 共享一组 KV,比如上图中就是两组 Q 共享一组 KV。

2025-02-01 20:35:33 1278

原创 【大模型LLM面试合集】大语言模型架构_llama系列模型

Alpaca是在LLaMA基础上使用52K指令数据精调的预训练模型,作者只用了不到600美元的成本训练出了该模型(数据$500 + 机器$100)。初步实验结果表明Alpaca可以达到与OpenAI text-davinci-003相匹敌的效果2023年7月,Meta推出了Llama-2开源大模型,并且推出了Llama-2-Chat对话模型与一代LLaMA主要区别体现在更多的训练数据、更⻓的上下文窗口、GQA技术等模型结构的变动主要是体现在GQA和FFN缩放上MHA改成GQA:整体参数量会有减少。

2025-02-01 20:27:10 1230

原创 【大模型LLM面试合集】大语言模型架构_llama 2代码详解

LLM(Large Language Model)应该是今年深度学习领域一项具有革命性的技术突破,因为ChatGPT3.5/4没有开源,所以本文选择Meta AI半开源的LLM 模型。

2024-11-06 09:00:00 1026

原创 【大模型LLM面试合集】大语言模型架构_llama3

Meta LLaMA3 强势发布,迄今为止功能最强大的公开可用的 LLM。此版本是在 15 万亿个 Token 上预训练的语言模型,具有 8B 和 70B 两种参数规模,可以支持广泛的用户场景,在各种行业基准上取得了最先进的性能,并提供一些了新功能,包括改进的推理能力,这些都是同时期最好的开源模型。除此之外,LLaMA3还有400B参数的模型正在训练中。

2024-11-06 09:00:00 830

原创 【大模型LLM面试合集】大语言模型架构_bert细节

当输入信息的维度 d 比较高,点积模型的值通常有比较大方差,从而导致 softmax函数的梯度会比较小。因此,缩放点积模型可以较好地解决这一问题。常用的Attention机制为加性模型和点积模型,理论上加性模型和点积模型的复杂度差不多,但是点积模型在实现上可以更好地利用矩阵乘积,从而计算效率更高(实际上,随着维度d的增大,加性模型会明显好于点积模型)。

2024-11-05 09:00:00 1030

原创 【大模型LLM面试合集】大语言模型架构_chatglm系列模型

三种预训练框架各有利弊,没有一种框架在以下三种领域的表现最佳:自然语言理解(NLU)、无条件生成以及条件生成。T5曾经尝试使用MTL的方式统一上述框架,然而自编码和自回归目标天然存在差异,简单的融合自然无法继承各个框架的优点。在这个天下三分的僵持局面下,GLM诞生了。。

2024-11-05 09:00:00 836

原创 【大模型LLM面试合集】大语言模型架构_token及模型参数

根据前面的实验我们知道,如果在tokens数量一定的数据集上做多epochs的模型训练,会影响模型的性能,降低模型的效果。这在预训练和下游任务都会产生影响。但是,随着模型的发展,高质量数据集的tokens数将很快用完。而采用正则技术虽然会影响模型训练效率,但是会降低这种影响。

2024-11-04 09:00:00 1023

原创 【大模型LLM面试合集】大语言模型架构_bert变种

原论文链接:RoBERTa 的全称是 Robustly optimized BERT approach。RoBERTa 是在 bert 的基础上做了一些改进,这些改进并不是设计什么新颖的结构,而是尽量使模型得到更充分的预训练,释放 bert 模型的潜力。另外还有一个是。做了上述改进之后,指标有所提升。

2024-11-04 09:00:00 1157

原创 【大模型LLM面试合集】大语言模型架构_激活函数

GeLU(Gaussian Error Linear Unit)是一种激活函数,常用于神经网络中的非线性变换。它在Transformer模型中广泛应用于FFN(Feed-Forward Network)块。下面是GeLU的计算公式:GeLUx0.5×x×1tanh2π×x0.044715×x3GeLUx0.5×x×1tanhπ2​​×x0.044715×x3)))其中,tanh()是双曲正切函数,sqrt()

2024-11-03 02:20:37 893

原创 【大模型LLM面试合集】大语言模型架构_tokenize分词

在使用GPT BERT模型输入词语常常会先进行tokenize ,tokenize的目标是把输入的文本流,切分成一个个子串,每个子串相对有完整的语义,便于学习embedding表达和后续模型的使用。tokenize有三种粒度:word/subword/char最常用的三种tokenize算法:BPE(Byte-Pair Encoding),WordPiece和SentencePieceBPE,即字节对编码。其核心思想在于将最常出现的子词对合并,直到词汇表达到预定的大小时停止。BPE是一种基于数据压缩算法

2024-11-03 02:11:18 970

原创 【大模型LLM面试合集】大语言模型架构_位置编码

绝对位置编码最原始的正余弦位置编码(即sinusoidal位置编码)是一种绝对位置编码,但从其原理中的正余弦的和差化积公式来看,引入的其实也是相对位置编码。优势: 实现简单,可预先计算好,不用参与训练,速度快。劣势: 没有外推性,即如果预训练最大长度为512的话,那么最多就只能处理长度为512的句子,再长就处理不了了。当然,也可以将超过512的位置向量随机初始化,然后继续微调。相对位置编码。

2024-10-26 10:00:00 1299

原创 【大模型LLM面试合集】大语言模型架构_LLM MoE :Switch Transformers

MoE,全称为Mixed Expert Models,翻译过来就是混合专家模型。MoE并不是什么最新技术,早在1991年的时候,论文就提出了MoE。模型规模是提升模型性能的关键因素之一,这也是为什么今天的大模型能取得成功。在有限的计算资源预算下,用更少的训练步数训练一个更大的模型,往往比用更多的步数训练一个较小的模型效果更佳。MoE 的一个显著优势是它们能够在远少于 Dense 模型所需的计算资源下进行有效的预训练。这意味着在相同的计算预算条件下,可以显著扩大模型或数据集的规模。

2024-10-26 00:22:04 684

原创 【大模型LLM面试合集】大语言模型架构_MoE经典论文简牍

总结了一下笔者在阅读 MoE 相关文献时印象较深的几篇文章,上述所阅读的文献主要与NLP相关的,其实 MoE 在各个领域中的应用已经十分广泛。比如Google提出的多模态MoE模型——LIMoE:, ICLR’21MoE 的思想,其实十分符合 Google 提出的 Pathways 愿景,也更加符合通用人工智能的设计理念。虽然目前 MoE 的工作,多数都是开发“超级模型”,但是上面列举的一些工作也表明 MoE 的用途还有很多,可以启发很多方向上方法的改进。

2024-08-06 12:41:14 1009

原创 【大模型LLM面试合集】大语言模型架构_layer_normalization

为什么要进行BN呢?在深度神经网络训练的过程中,通常以输入网络的每一个mini-batch进行训练,这样每个batch具有不同的分布,使模型训练起来特别困难。Internal Covariate Shift (ICS) 问题:在训练的过程中,激活函数会改变各层数据的分布,随着网络的加深,这种改变(差异)会越来越大,使模型训练起来特别困难,收敛速度很慢,会出现梯度消失的问题。

2024-07-09 18:01:10 1071

原创 【大模型LLM面试合集】大语言模型架构_MoE论文

神经网络的吸收信息的容量(capacity)受限于参数数目。条件计算(conditional computation)**针对于每个样本,​激活网络的部分子网络进行计算**,它在理论上已证明,可以作为一种显著增加模型容量的方法。在实际中,在牺牲少量计算效率的情况下,实现了1000 倍的模型容量(model capacity)的提升。引入了稀疏门控专家混合层(Sparsely-Gated Mixture-of-Experts Layer),包括数以千计的前馈子网络。

2024-07-09 17:57:43 1328

原创 【大模型LLM面试合集】大语言模型架构_attention

MHA(Multi-head Attention)是标准的多头注意力机制,h个Query、Key 和 Value 矩阵。MQA(Multi-Query Attention)是多查询注意力的一种变体,也是用于自回归解码的一种注意力机制。与MHA不同的是,MQA 让所有的头之间共享同一份 Key 和 Value 矩阵,每个头只单独保留了一份 Query 参数,从而大大减少 Key 和 Value 矩阵的参数量。GQA(Grouped-Query Attention)是分组查询注意力,

2024-07-08 22:28:53 1485

原创 【大模型LLM面试合集】大语言模型基础_Word2Vec

Word2Vec是google在2013年推出的一个NLP工具,它的特点是能够将单词转化为向量来表示,这样词与词之间就可以定量的去度量他们之间的关系,挖掘词之间的联系。用词向量来表示词并不是Word2Vec的首创,在很久之前就出现了。最早的词向量采用One-Hot编码,又称为一位有效编码,每个词向量维度大小为整个词汇表的大小,对于每个具体的词汇表中的词,将对应的位置置为1。比如下面的5个词组成的词汇表,采用One-Hot编码方式来表示词向量非常简单,但缺点也是显而易见的,一方面实际使用的词汇表很大。

2024-07-08 22:05:34 1218

原创 【大模型LLM面试合集】大语言模型基础_NLP面试题

BERT(Bidirectional Encoder Representations from Transformers)是谷歌提出,作为一个Word2Vec的替代者,其在NLP领域的11个方向大幅刷新了精度,可以说是近年来自残差网络最优突破性的一项技术了。BERT 只利用了 Transformer 的 encoder 部分。因为BERT 的目标是生成语言模型,所以只需要 encoder 机制。

2024-07-07 18:53:56 1431

原创 【大模型LLM面试合集】大语言模型基础_LLM为什么Decoder only架构

LLM 是 “Large Language Model” 的简写,目前一般指百亿参数以上的语言模型, 主要面向文本生成任务。跟小尺度模型(10亿或以内量级)的“百花齐放”不同,目前LLM的一个现状是Decoder-only架构的研究居多,像OpenAI一直坚持Decoder-only的GPT系列就不说了,即便是Google这样的并非全部押注在Decoder-only的公司,也确实投入了不少的精力去研究Decoder-only的模型,如PaLM就是其中之一。

2024-07-07 18:45:00 1227

原创 【大模型LLM面试合集】大语言模型基础_词向量

基于深度学习的词向量训练方法,具有算法简单通用,语料获取容易,泛化性好的优点。词向量在文本分析,文本摘要,情感分析等领域都是必须的预处理,可以大大提高自然语言处理的准确度。下面来看一个基于skip-gram的词向量训练的代码实现,这样就能够skip-gram算法有比较深刻的理解。此时训练词向量时,可以先基于一个已有的模型进行增量训练,这样就可以得到包含特定语料的比较准确的词向量了。工具,它可以进行词向量训练,加载已有模型进行增量训练,求两个词向量相似度,求与某个词接近的词语,等等。工具进行词向量模型训练。

2024-07-06 19:16:55 770

原创 【大模型LLM面试合集】大语言模型基础_句法分析

句法分析,任重而道远。随着深度学习在NLP中的使用,特别是本身携带句法关系的LSTM模型的应用,句法分析已经变得不是那么必要了。但是,在句法结构十分复杂的长语句,以及标注样本较少的情况下,句法分析依然可以发挥出很大的作用。句法分析也是自然语言处理中的基础性工作,它分析句子的句法结构(主谓宾结构)和词汇间的依存关系(并列,从属等)。语义依存关系分析,识别词汇间的从属、并列、递进等关系,可以获得较深层的语义信息。研究表明,很多情况下,单纯的bi-lstm,比基于句法分析树的tree-lstm效果更好。

2024-07-06 19:13:18 699

原创 【大模型LLM面试合集】大语言模型基础_词性标注

观测序列即为分词后的语句,隐藏序列即为经过标注后的词性标注序列。jieba可以在分词的同时,完成词性标注,因此标注速度可以得到保证。通过查询字典的方式获取识别词的词性,通过HMM隐马尔科夫模型来获取未登录词的词性,从而完成整个语句的词性标注。然后使用viterbi算法,利用得到的三个概率,将观测序列(分词后的语句)转化得到隐藏序列(词性标注序列)。这种方法比较简单,通俗易懂,但是不能解决一词多词性的问题,因此存在一定的误差。jieba分词就综合了两种算法,对于分词后识别出来的词语,直接从字典中查找其词性。

2024-07-05 18:20:00 1143

原创 【大模型LLM面试合集】大语言模型基础_jieba分词用法及原理

上篇文章分析了自然语言处理,特别是中文处理中,分词的几个主要难点。为了解决这些难点,提出了基于字符串匹配的算法和基于统计的分词算法。针对当前的几种分词引擎,对其分词准确度和速度进行了评估。jieba分词作为一个开源项目,在准确度和速度方面均不错,是我们平时常用的分词工具。本文将对jieba分词的使用方法以及原理进行讲解,便于在理解jieba分词原理的同时,加深对前文讲解的分词难点和算法的理解。

2024-07-05 18:13:26 1132

二手交易网站(完整源码可运行).rar

内容概要 该平台基于 Django 框架,为校园中学生提供二手物品的高效发布与交易功能,涵盖用户注册登录、物品发布与搜索、购物车与订单管理等核心模块,帮助用户安全便捷地处理闲置物品。 适用人群 校园内所有有二手交易需求的师生,尤其是毕业季需快速处理闲置物品的留学生群体。 适用场所及目标 适用于高校或相关教育机构。目标是搭建一个安全可信、管理高效的校园二手交易生态,并通过数据可视化与后台统计来实现更精准的运营和维护。 其他说明 平台采用 MySQL 进行数据存储,Git 进行版本控制,前后端分层结构清晰,维护与扩展性较高,可进一步添加支付方式、物流管理等功能。

2025-02-01

「CIFAR-100 分类实战:从 ResNet 到 Wide-ResNet,一文分享我的开源代码与经验」

本项目代码资源完整公开,提供 Wide-ResNet 模型和 CIFAR-100 训练流程,帮助你深入理解模型调优和实验步骤。

2025-02-01

利用生成对抗网络(GAN)进行CIFAR-100图像生成:实验与结果分享

FID Score: 15.8565 Inception Score: 6.0625 ± 0.7847 Intra-FID: 51.2626 Training time:4 hours, 36 minutes, 36 seconds (single RTX3090 operation)

2025-02-01

基于集成学习的 Amazon 用户评论质量预测 (数据集+代码+报告)

主观题 (15分) 一、案例简介¶ 随着电商平台的兴起,以及疫情的持续影响,线上购物在我们的日常生活中扮演着越来越重要的角色。在进行线上商品挑选时,评论往往是我们十分关注的一个方面。然而目前电商网站的评论质量参差不齐,甚至有水军刷好评或者恶意差评的情况出现,严重影响了顾客的购物体验。因此,对于评论质量的预测成为电商平台越来越关注的话题,如果能自动对评论质量进行评估,就能根据预测结果避免展现低质量的评论。本案例中我们将基于集成学习的方法对 Amazon 现实场景中的评论质量进行预测。 二、作业说明 本案例中需要大家完成两种集成学习算法的实现(Bagging、AdaBoost.M1),其中基分类器要求使用 SVM 和决策树两种,因此,一共需要对比四组结果(AUC 作为评价指标): Bagging + SVM Bagging + 决策树 AdaBoost.M1 + SVM AdaBoost.M1 + 决策树 注意集成学习的核心算法需要手动进行实现,基分类器可以调库。 基本要求 根据数据格式设计特征的表示 汇报不同组合下得到的 AUC 结合不同集成学习算法的特点分析结果

2024-07-07

AAAI 会议论文聚类分析(数据集+代码+报告)

本次实验以AAAI 2014会议论文数据为基础,要求实现或调用无监督聚类算法,了解聚类方法。 任务介绍 每年国际上召开的大大小小学术会议不计其数,发表了非常多的论文。在计算机领域的一些大型学术会议上,一次就可以发表涉及各个方向的几百篇论文。按论文的主题、内容进行聚类,有助于人们高效地查找和获得所需要的论文。本案例数据来源于AAAI 2014上发表的约400篇文章,由UCI公开提供,提供包括标题、作者、关键词、摘要在内的信息,希望大家能根据这些信息,合理地构造特征向量来表示这些论文,并设计实现或调用聚类算法对论文进行聚类。最后也可以对聚类结果进行观察,看每一类都是什么样的论文,是否有一些主题。 基本要求: 将文本转化为向量,实现或调用无监督聚类算法,对论文聚类,例如10类(可使用已有工具包例如sklearn); 观察每一类中的论文,调整算法使结果较为合理; 无监督聚类没有标签,效果较难评价,因此没有硬性指标,跑通即可,主要让大家了解和感受聚类算法,比较简单。 扩展要求: 对文本向量进行降维,并将聚类结果可视化成散点图。 注:group和topic也不能完全算是标签

2024-07-07

基于回归分析的大学综合得分预测(数据集+代码+报告)

大学排名是一个非常重要同时也极富挑战性与争议性的问题,一所大学的综合实力涉及科研、师资、学生等方方面面。目前全球有上百家评估机构会评估大学的综合得分进行排序,而这些机构的打分也往往并不一致。在这些评分机构中,世界大学排名中心(Center for World University Rankings,缩写CWUR)以评估教育质量、校友就业、研究成果和引用,而非依赖于调查和大学所提交的数据著称,是非常有影响力的一个。 本任务中我们将根据 CWUR 所提供的世界各地知名大学各方面的排名(师资、科研等),一方面通过数据可视化的方式观察不同大学的特点,另一方面希望构建机器学习模型(线性回归)预测一所大学的综合得分。 二、作业说明 使用来自 Kaggle 的数据,构建「线性回归」模型,根据大学各项指标的排名预测综合得分。 基本要求: 按照 8:2 随机划分训练集测试集,用 RMSE 作为评价指标,得到测试集上线性回归模型的 RMSE 值; 对线性回归模型的系数进行分析。 扩展要求: 对数据进行观察与可视化,展示数据特点; 尝试其他的回归模型,对比效果; 尝试将离散的国家特征融入线性回归模型

2024-07-07

某闯关类手游用户流失预测(数据集+代码+报告)

手游在当下的日常娱乐中占据着主导性地位,成为人们生活中放松身心的一种有效途径。近年来,各种类型的手游,尤其是闯关类的休闲手游,由于其对碎片化时间的利用取得了非常广泛的市场。然而在此类手游中,新用户流失是一个非常严峻的问题,有相当多的新用户在短暂尝试后会选择放弃,而如果能在用户还没有完全卸载游戏的时候针对流失可能性较大的用户施以干预(例如奖励道具、暖心短信),就可能挽回用户从而提升游戏的活跃度和公司的潜在收益,因此用户的流失预测成为一个重要且挑战性的问题。在毕业项目中我们将从真实游戏中非结构化的日志数据出发,构建用户流失预测模型,综合已有知识设计适合的算法解决实际问题。 二、作业说明 根据给出的实际数据(包括用户游玩历史,关卡特征等),预测测试集中的用户是否为流失用户(二分类); 方法不限,使用百度云进行评测,评价指标使用 AUC; 提交代码与实验报告,报告展示对数据的观察、分析、最后的解决方案以及不同尝试的对比等; 最终评分会参考达到的效果以及对所尝试方法的分析。

2024-07-07

基于决策树的英雄联盟游戏胜负预测(数据+代码+报告包含)

英雄联盟(League of Legends,LoL)是一个多人在线竞技游戏,由拳头游戏(Riot Games)公司出品。在游戏中,每位玩家控制一位有独特技能的英雄,红蓝两支队伍各有五位玩家进行对战,目标是摧毁对方的基地水晶。水晶有多座防御塔保护,通常需要先摧毁一些防御塔再摧毁水晶。玩家所控制的英雄起初非常弱,需要不断击杀小兵、野怪和对方英雄来获得金币、经验。经验可以提升英雄等级和技能等级,金币可以用来购买装备提升攻击、防御等属性。对战过程中一般没有己方单位在附近的地点是没有视野的,即无法看到对面单位,双方可以通过使用守卫来监视某个地点,洞察对面走向、制定战术。 本数据集来自Kaggle,包含了9879场钻一到大师段位的单双排对局,对局双方几乎是同一水平。每条数据是前10分钟的对局情况,每支队伍有19个特征,红蓝双方共38个特征。这些特征包括英雄击杀、死亡,金钱、经验、等级情况等等。一局游戏一般会持续30至40分钟,但是实际前10分钟的局面很大程度上影响了之后胜负的走向。作为最成功的电子竞技游戏之一,对局数据、选手数据的量化与研究具有重要意义

2024-07-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除