自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

chen695969的博客

主要发人工智能方面的技术文章,其中包括机器学习,深度学习,自然语言处理等等,接人工智能方面的实验一对一指导

  • 博客(148)
  • 收藏
  • 关注

原创 这款知识库神器,0配置秒上手,还能显示图片和表格!

DeepSeekMine是一款本地化智能知识库工具,提供即装即用的便捷体验。相比竞品,它支持完整文档解析(包括表格、图片、公式),并具备图片理解输出能力,回答准确率行业领先。V2.2.1版本新增引用跳转、图片展示、Ollama视觉模型接入等功能,改进文档解析引擎和检索算法,支持最高256K上下文长度。未来将开发智能问答分类、微信登录和问题改写等功能,持续优化知识管理体验。所有数据本地存储,保障隐私安全。

2025-11-18 10:49:59 918

原创 YouTube评论情感分析项目84%正确率:基于BERT的实战复现与原理解析

本文介绍了一个基于BERT预训练模型的YouTube评论情感分类项目。项目采用bert-base-uncased模型,通过文本分词、BERT嵌入和全连接层实现三分类(积极/消极/中性)。关键技术包括数据处理、标签编码、加权随机采样以及模型训练评估流程。实验结果显示验证集准确率达84%,F1分数0.81,其中积极评论识别效果最佳。项目提供完整的代码实现和复现指南,支持GPU加速和API服务化部署,适用于社交媒体舆情分析等场景。中文任务可替换为中文BERT模型,保持相同技术流程。

2025-10-25 14:45:36 756 2

原创 真假新闻分类项目99%正确率全流程详解(附原理/代码/部署)

本项目基于4.5万条新闻数据,采用深度学习技术构建了一个高精度的假新闻检测系统。通过双向LSTM模型结合GloVe预训练词向量,实现了99.88%的测试准确率。系统包含完整的文本预处理流程(小写转换、去停用词等)、词向量嵌入层和深度学习模型架构。项目提供了详细的环境配置指南、代码实现和可视化结果,便于复现和部署。该方案验证了NLP技术在虚假信息识别中的有效性,建议进一步扩展数据集以验证模型泛化能力。

2025-10-25 14:35:39 755

原创 DeepSeek-OCR:开创视觉-文本压缩新纪元的端到端OCR模型

DeepSeek-OCR:视觉压缩长文本的革命性突破 DeepSeek-OCR是DeepSeek-AI提出的创新性视觉-语言模型,通过光学二维映射实现长文本的高效压缩。该模型采用独特的DeepEncoder(380M参数)和DeepSeek-3B-MoE解码器架构,能够将1024×1024图像压缩为256个视觉token,实现10倍压缩比下97%的文本还原精度。 核心创新包括: 三段式DeepEncoder设计,结合SAM-base和CLIP-large模块 支持多分辨率输入(512×512至1280×12

2025-10-22 15:26:41 869

原创 deepseekmine2.2.0发布,本地知识库,秒级上传与检索文件,免费试用

DeepSeekMine 2.2.0版本带来多项优化:界面适配暗黑/浅色模式;检索算法升级,精准问答情况下(问题详细且不模糊)正确率达75%-80%;百万字文件上传速度提升至1秒内;修复API调用问题,支持7家供应商;新增OCR图片识别、密码找回、翻译智能体功能;优化笔记编辑体验;支持自定义知识库存储位置;针对qwen3模型进行专项优化,8GB显存下性能接近满血大模型。下载地址:https://deepseekmine.com/download。

2025-10-12 19:18:13 355

原创 【大模型LLM面试合集】有监督微调_lora

LoRA系列方法通过低秩分解实现大模型高效微调。LoRA利用降维矩阵模拟参数更新,显著减少参数量;AdaLoRA动态分配参数预算,基于重要性评分调整矩阵秩;QLoRA结合4bit量化与适配器微调,在保证性能的同时降低显存消耗。实验表明,这些方法在不同任务中均能媲美全量微调效果,且QLoRA首次实现4bit量化下的无损微调。这些技术为大规模语言模型的高效适配提供了实用解决方案。

2025-09-30 19:00:19 1087

原创 【大模型LLM面试合集】有监督微调_adapter-tuning

大模型参数高效微调技术:Adapter Tuning及其变体 本文综述了Adapter Tuning及其几种改进变体,这些技术旨在解决大模型全量微调的高计算成本问题。核心方法是在预训练模型的Transformer层中插入少量任务特定参数(Adapter模块),仅微调这些新增参数而非整个模型。主要变体包括: AdapterFusion:通过两阶段学习(知识提取+组合)实现多任务知识融合 AdapterDrop:动态移除低层Adapter以提升推理效率(最高提速39%) MAM Adapter:统一框架揭示不同

2025-09-30 18:54:28 1006

原创 【大模型LLM面试合集】有监督微调_预训练

摘要 增量预训练是将领域知识注入大模型的有效方法,其流程包括:选择底座模型、收集TB级数据并进行清洗、选用合适训练框架(3D并行/张量并行/LoRA)、确定数据混合策略。训练时需处理数据至统一长度、调整分词器和模型层名,最后进行模型转换和基础测试。关键是通过高质量数据提升信息密度,优化模型学习效率。

2025-09-29 10:49:39 415

原创 【大模型LLM面试合集】有监督微调_prompting

本文介绍了四种高效微调预训练语言模型的方法:BitFit、Prefix Tuning、Prompt Tuning和P-Tuning。BitFit通过仅更新模型中的bias参数实现微调,参数量仅占0.08%-0.09%,效果接近全量微调;Prefix Tuning为不同任务添加可训练的前缀参数,在生成任务中表现优异;Prompt Tuning简化了Prefix Tuning,仅在输入层添加可学习的prompt tokens;P-Tuning将离散prompt转化为可微的embedding层,通过MLP+LST

2025-09-24 21:05:54 771

原创 【大模型LLM面试合集】有监督微调_微调

本文系统梳理大模型微调关键问题,涵盖显存估算、灾难性遗忘、数据构建、领域适配及训练优化等20个核心议题,为高效、稳定地开展全参数微调与指令微调提供实践指南

2025-09-24 20:56:05 796

原创 Qwen3、GPT和DeepSeek接入个人电脑知识库,回答速度飞快,确实太实用了!

DeepSeekMine是一款本地化知识库管理软件,支持一键安装多种开源大模型(如DeepSeek、Qwen3等)

2025-09-12 15:28:44 340

原创 DeepSeekMine个人本地知识库,一般电脑也能飞速跑,确实逆天了

DeepSeekMine迎来V2.1.7版本重大更新,支持官网直下载。主要升级包括:本地模型响应速度提升15%-40%,远程模型实现3秒内快速响应;新增Doc文档读取功能,优化多轮对话连贯性;改进中英文混合检索准确性及输出样式。特别推出内置Ollama安装包的一键下载功能,并修复多项bug。Mac用户若遇安装问题,可通过终端命令解决。开发者邀请用户通过反馈表单提交使用建议。关注官方直播间可获取更多使用技巧。

2025-08-29 10:45:00 692

原创 一键搭建本地AI知识库!DeepSeekMine轻量级RAG方案发布,Windows/Mac免费用!

告别向量数据库!个人/企业文档安全处理,本地大模型驱动,轻量飞速,完全免费!

2025-07-08 12:35:20 1724

原创 DeepSeekMine个人知识库,可吞下20G文件,初版Windows和Mac安装包发布!

DeepSeekMine是我们团队开发的一款本地知识库管理软件,历时近四个月,现已推出支持Windows、Mac和Linux的Docker版本,实现一键安装。软件支持完全本地运行,具备高效的RAG查询生成能力,可处理数十至数百GB本地文件。用户只需安装Docker并部署DeepSeekMine镜像,即可通过浏览器访问localhost:3000使用。支持文件/文件夹上传、快速加载、多轮对话及多模型配置,提升响应准确性。DeepSeekMine初次发布免费使用,适合有本地知识管理需求的用户

2025-05-16 22:48:18 1671

原创 【大模型LLM面试合集】有监督微调_微调

通常,大型模型和较大的批次大小可能需要较大的显存容量。建议在进行微调之前评估和测试所用计算平台的显存容量,并根据实际情况进行调整。

2025-03-14 14:17:02 1201

原创 【大模型LLM面试合集】有监督微调_基本概念

这样,模型就可以适应新的任务,计算开销更少,标记的例子也更少。尽管PEFT是一个相对较新的概念,但自从引入迁移学习以来,更新最后一层模型已经在计算机视觉领域得到了实践。即使在NLP中,静态和非静态词嵌入的实验也很早就进行了。参数高效微调旨在提高预训练模型(如BERT和RoBERTa)在各种下游任务上的性能,包括情感分析、命名实体识别和问答。它在数据和计算资源有限的低资源设置中实现了这一点。它只修改模型参数的一小部分,并且不容易过度拟合。参数高效的微调。

2025-03-14 14:14:39 875

原创 【大模型LLM面试合集】分布式训练_总结

数据并行,由于其原理相对比较简单,是目前使用最广泛的分布式并行技术。。我们首先以PyTorch 数据并行的发展(DataParallel、DistributedDataParallel、FullyShardedDataParallel)为主线进行讲述了数据并行的技术原理。同时,也简述了 DeepSpeed 中的增强版数据并行ZeRO。

2025-03-13 10:29:57 1002

原创 【大模型LLM面试合集】分布式训练_moe并行

本文简要介绍了目前业界的一些 MOE 并行方案。如果说Transformer结构使得模型突破到上亿参数量,那么稀疏 MoE 结构可以在不显著增加计算成本的情况下,使模型参数量进一步突破,达到上千亿、万亿规模。虽然,1990年左右 MOE 的概念就已经出现了;但是可以预见,MOE 将在通往AGI的道路上扮演越来越重要的角色。

2025-03-13 10:26:22 1372

原创 【大模型LLM面试合集】分布式训练_多维度混合并行

本文主要讲解了常见的大模型分布式并行技术的组合策略,同时,也讲述了目前业界的一些大模型所使用的并行策略,具体如下表所示。模型DPTPPPZeRO StageGPUsFP16/BF16Bloom-176B8412ZeRO-1384 张 A100 80GBBF161928ZeRO-21,536 张 Ascend 910 32GBFP16GLM-130B2448ZeRO-1768 张 A100 40GFP16OPT-175B1248✅。

2025-03-02 10:00:00 687

原创 【大模型LLM面试合集】分布式训练_自动并行

本文介绍了自动并行技术在深度学习中的应用,旨在简化分布式并行策略选择,分全自动与半自动两种模式。Mesh-TensorFlow通过给张量各维命名,将设备视为矩阵,实现任意维度分割,但需重写模型且不支持自动搜索最优布局;GSPMD采用张量分片注解,在XLA基础上统一实现多种并行策略;FlexFlow构建SOAP搜索空间,通过执行模拟器评估策略性能并自动选优;Alpa则融合算子内外并行,利用动态规划和整数规划划分流水线与细化分片,成为自动并行的集大成者。

2025-03-02 10:00:00 865

原创 【大模型LLM面试合集】分布式训练_张量并行

本文主要针对 Megatron-LM 和 Colossal-AI 的张量并行方案进行了讲解。其中,Megatron-LM 提出了一种高效的一维(1D)张量并行化实现。这种方法虽然将参数划分到多个处理器上,但每个处理器仍需要存储整个中间激活,在处理大模型时会消耗大量的显存空间。此外,由于仅采用1维矩阵划分,在每次计算中,每个处理器都需要与其他所有处理器进行通信;因此,通信成本会随并行度增高而激增。显然,1维张量并行已无法满足当前超大AI模型的需求。

2025-03-01 10:00:00 1816

原创 【大模型LLM面试合集】分布式训练_序列并行

总的来说,Colossal-AI 的序列并行是为了打破单设备上序列长度的限制。而 Megatron-LM 的序列并行是在显存上面下了功夫,可以用更少的设备去运行大模型。除此之外,从文章细节里面可以看到,部分的计算的冗余被消除了,且重叠了一部分的通信,使得设备可以花更多的时间用于计算上面。虽然,Colossal-AI 和 Megatron-LM 都有序列并行,但是两者解决的问题、方法都不一样。除此之外,在Pytorch中,也已经支持序列并行了。

2025-03-01 10:00:00 1755

原创 【大模型LLM面试合集】分布式训练_流水线并行

所谓流水线并行,就是由于模型太大,无法将整个模型放置到单张GPU卡中;因此,将模型的不同层放置到不同的计算设备,降低单个计算设备的显存消耗,从而实现超大规模模型训练。如下图所示,模型共包含四个模型层(如:Transformer层),被切分为三个部分,分别放置到三个不同的计算设备。即第 1 层放置到设备 0,第 2 层和第三 3 层放置到设备 1,第 4 层放置到设备 2。相邻设备间通过通信链路传输数据。

2025-02-07 09:00:00 1794

原创 【大模型LLM面试合集】分布式训练_显存问题

大模型也分为,一般模型的规格会体现在模型的名称上,例如 LLaMA2-13b,13b 就是其模型参数量的大小,意思是 130亿的参数量。大模型的文件大小与其参数量有关,通常大模型是以半精度存储的, Xb 的模型文件大概是 2X GB多一些,例如 13b 的模型文件大小大约是 27GB 左右。

2025-02-06 09:00:00 535

原创 【大模型LLM面试合集】分布式训练_数据并行

本文主要讲解了大模型分布式训练并行技术的数据并行,并以Pytorch为主线讲解了DP、DDP、FSDP三种不同的数据并行方案。单进程多线程模式,由于锁的机制导致线程间同步存在瓶颈。使用普通的All-Reduce机制,所有的卡需要将梯度同步给0号节点,并由0号节点平均梯度后反向传播,再分发给所有其他节点,意味着0号节点负载很重。由于第二点的原因,导致0号GPU通讯成本是随着GPU数量的上升而线性上升的。不支持多机多卡。目前,由于性能问题,DP基本不用了。

2025-02-06 09:00:00 952

原创 【大模型LLM面试合集】分布式训练_概述

数据并行是最常见的并行形式,因为它很简单。在数据并行训练中,数据集被分割成几个碎片,每个碎片被分配到一个设备上。这相当于。每个设备将持有一个完整的模型副本,并在分配的数据集碎片上进行训练。在反向传播之后,模型的梯度将被全部减少,以便在不同设备上的模型参数能够保持同步。典型的数据并行实现:PyTorch DDP。

2025-02-05 17:02:00 1080

原创 【大模型LLM面试合集】训练数据_数据格式

在这个示例中,(1代表正例,0代表负例)。每一行代表一个样本,第一列是输入数据,第二列是对应的标签。需要注意的是,具体的数据集格式可能会因任务类型、数据来源和使用的深度学习框架而有所不同。因此,在进行SFT训练时,建议根据具体任务和框架的要求来定义和处理数据集格式。

2025-02-05 16:52:50 1513

原创 【大模型LLM面试合集】大语言模型架构_解码策略(Top-k & Top-p & Temperatu)

在大模型训练好之后,如何对训练好的模型进行解码(decode)是一个火热的研究话题。一般给模型传入的解码参数如下所示。在自然语言任务中,通常使用一个预训练的大模型(比如GPT)来根据给定的输入文本(比如一个开头或一个问题)生成输出文本(比如一个答案或一个结尾)。为了生成输出文本,需要让模型逐个预测每个 token ,直到达到一个终止条件(如一个标点符号或一个最大长度)。在每一步,模型会给出一个概率分布,表示它对下一个单词的预测。

2025-02-05 16:48:41 894

原创 【大模型LLM面试合集】大语言模型架构_Transformer架构细节

训练上的意义:随着词嵌⼊维度d_k的增⼤, q * k 点积后的结果也会增⼤, 在训练时会将 softmax函数推入梯度⾮常⼩的区域, 可能出现梯度消失的现象, 造成模型收敛困难.数学上的意义: 假设q和k的统计变量是满⾜标准正态分布的独⽴随机变量, 意味着q和k满⾜均 值为0, ⽅差为1。** 那么q和k的点积结果就是均值为0, ⽅差为**dkd_kdk​, 为了抵消这种⽅差被放⼤dkd_kdk​** 倍的影响, 在计算中主动将点积缩放**​1dk​dk​1​。

2025-02-05 16:44:52 1114

原创 「GAN 在 CIFAR-100 上的高质量图像生成:完整可复现代码与卓越实验成果」

生成对抗网络(GAN)是一种强大的深度学习框架,由两部分组成:生成器和判别器。生成器负责生成尽可能真实的图像,而判别器的任务是判断这些图像是否真实。在训练过程中,生成器和判别器通过博弈来提升各自的能力,最终达到生成器能够生成高质量图像的效果。在本实验中,我选择了。

2025-02-02 09:00:00 934

原创 用 Wide-ResNet 打出 79% 准确率!完整源码公开,一文带你复现 CIFAR-100 分类实验

ResNet(Residual Network)最早由微软研究院提出,通过使用残差结构(Residual Block)有效缓解了深度神经网络中出现的梯度消失或梯度爆炸等问题。同时,残差结构也让网络能在保持较深层数的同时依旧有良好的训练效果。是对 ResNet 的改进版本,论文提出可以在增加网络宽度(即 channel 数)而不是盲目加深网络深度的情况下,获得更强的表达能力和更好的性能表现。相比于很深的 ResNet,Wide-ResNet 通常能在较少的训练时间内取得相当甚至更高的准确率。

2025-02-02 09:00:00 2505

原创 【大模型LLM面试合集】大语言模型架构_MHA_MQA_GQA

GQA-N 是指具有 N 组的 Grouped Query Attention。GQA-1具有单个组,因此具有单个Key 和 Value,等效于MQA。而GQA-H具有与头数相等的组,等效于MHA。GQA介于MHA和MQA之间。GQA 综合 MHA 和 MQA ,既不损失太多性能,又能利用 MQA 的推理加速。不是所有 Q 头共享一组 KV,而是分组一定头数 Q 共享一组 KV,比如上图中就是两组 Q 共享一组 KV。

2025-02-01 20:35:33 1409

原创 【大模型LLM面试合集】大语言模型架构_llama系列模型

Alpaca是在LLaMA基础上使用52K指令数据精调的预训练模型,作者只用了不到600美元的成本训练出了该模型(数据$500 + 机器$100)。初步实验结果表明Alpaca可以达到与OpenAI text-davinci-003相匹敌的效果2023年7月,Meta推出了Llama-2开源大模型,并且推出了Llama-2-Chat对话模型与一代LLaMA主要区别体现在更多的训练数据、更⻓的上下文窗口、GQA技术等模型结构的变动主要是体现在GQA和FFN缩放上MHA改成GQA:整体参数量会有减少。

2025-02-01 20:27:10 1377

原创 【大模型LLM面试合集】大语言模型架构_llama 2代码详解

LLM(Large Language Model)应该是今年深度学习领域一项具有革命性的技术突破,因为ChatGPT3.5/4没有开源,所以本文选择Meta AI半开源的LLM 模型。

2024-11-06 09:00:00 1119

原创 【大模型LLM面试合集】大语言模型架构_llama3

Meta LLaMA3 强势发布,迄今为止功能最强大的公开可用的 LLM。此版本是在 15 万亿个 Token 上预训练的语言模型,具有 8B 和 70B 两种参数规模,可以支持广泛的用户场景,在各种行业基准上取得了最先进的性能,并提供一些了新功能,包括改进的推理能力,这些都是同时期最好的开源模型。除此之外,LLaMA3还有400B参数的模型正在训练中。

2024-11-06 09:00:00 938

原创 【大模型LLM面试合集】大语言模型架构_bert细节

当输入信息的维度 d 比较高,点积模型的值通常有比较大方差,从而导致 softmax函数的梯度会比较小。因此,缩放点积模型可以较好地解决这一问题。常用的Attention机制为加性模型和点积模型,理论上加性模型和点积模型的复杂度差不多,但是点积模型在实现上可以更好地利用矩阵乘积,从而计算效率更高(实际上,随着维度d的增大,加性模型会明显好于点积模型)。

2024-11-05 09:00:00 1115

原创 【大模型LLM面试合集】大语言模型架构_chatglm系列模型

三种预训练框架各有利弊,没有一种框架在以下三种领域的表现最佳:自然语言理解(NLU)、无条件生成以及条件生成。T5曾经尝试使用MTL的方式统一上述框架,然而自编码和自回归目标天然存在差异,简单的融合自然无法继承各个框架的优点。在这个天下三分的僵持局面下,GLM诞生了。。

2024-11-05 09:00:00 999

原创 【大模型LLM面试合集】大语言模型架构_token及模型参数

根据前面的实验我们知道,如果在tokens数量一定的数据集上做多epochs的模型训练,会影响模型的性能,降低模型的效果。这在预训练和下游任务都会产生影响。但是,随着模型的发展,高质量数据集的tokens数将很快用完。而采用正则技术虽然会影响模型训练效率,但是会降低这种影响。

2024-11-04 09:00:00 1197

原创 【大模型LLM面试合集】大语言模型架构_bert变种

原论文链接:RoBERTa 的全称是 Robustly optimized BERT approach。RoBERTa 是在 bert 的基础上做了一些改进,这些改进并不是设计什么新颖的结构,而是尽量使模型得到更充分的预训练,释放 bert 模型的潜力。另外还有一个是。做了上述改进之后,指标有所提升。

2024-11-04 09:00:00 1275

原创 【大模型LLM面试合集】大语言模型架构_激活函数

GeLU(Gaussian Error Linear Unit)是一种激活函数,常用于神经网络中的非线性变换。它在Transformer模型中广泛应用于FFN(Feed-Forward Network)块。下面是GeLU的计算公式:GeLUx0.5×x×1tanh2π×x0.044715×x3GeLUx0.5×x×1tanhπ2​​×x0.044715×x3)))其中,tanh()是双曲正切函数,sqrt()

2024-11-03 02:20:37 1077

YouTube评论情感分析项目84%正确率:基于BERT的实战复现与原理解析

数据集和代码

2025-10-25

二手交易网站(完整源码可运行).rar

内容概要 该平台基于 Django 框架,为校园中学生提供二手物品的高效发布与交易功能,涵盖用户注册登录、物品发布与搜索、购物车与订单管理等核心模块,帮助用户安全便捷地处理闲置物品。 适用人群 校园内所有有二手交易需求的师生,尤其是毕业季需快速处理闲置物品的留学生群体。 适用场所及目标 适用于高校或相关教育机构。目标是搭建一个安全可信、管理高效的校园二手交易生态,并通过数据可视化与后台统计来实现更精准的运营和维护。 其他说明 平台采用 MySQL 进行数据存储,Git 进行版本控制,前后端分层结构清晰,维护与扩展性较高,可进一步添加支付方式、物流管理等功能。

2025-02-01

「CIFAR-100 分类实战:从 ResNet 到 Wide-ResNet,一文分享我的开源代码与经验」

本项目代码资源完整公开,提供 Wide-ResNet 模型和 CIFAR-100 训练流程,帮助你深入理解模型调优和实验步骤。

2025-02-01

利用生成对抗网络(GAN)进行CIFAR-100图像生成:实验与结果分享

FID Score: 15.8565 Inception Score: 6.0625 ± 0.7847 Intra-FID: 51.2626 Training time:4 hours, 36 minutes, 36 seconds (single RTX3090 operation)

2025-02-01

某闯关类手游用户流失预测(数据集+代码+报告)

手游在当下的日常娱乐中占据着主导性地位,成为人们生活中放松身心的一种有效途径。近年来,各种类型的手游,尤其是闯关类的休闲手游,由于其对碎片化时间的利用取得了非常广泛的市场。然而在此类手游中,新用户流失是一个非常严峻的问题,有相当多的新用户在短暂尝试后会选择放弃,而如果能在用户还没有完全卸载游戏的时候针对流失可能性较大的用户施以干预(例如奖励道具、暖心短信),就可能挽回用户从而提升游戏的活跃度和公司的潜在收益,因此用户的流失预测成为一个重要且挑战性的问题。在毕业项目中我们将从真实游戏中非结构化的日志数据出发,构建用户流失预测模型,综合已有知识设计适合的算法解决实际问题。 二、作业说明 根据给出的实际数据(包括用户游玩历史,关卡特征等),预测测试集中的用户是否为流失用户(二分类); 方法不限,使用百度云进行评测,评价指标使用 AUC; 提交代码与实验报告,报告展示对数据的观察、分析、最后的解决方案以及不同尝试的对比等; 最终评分会参考达到的效果以及对所尝试方法的分析。

2024-07-07

基于回归分析的大学综合得分预测(数据集+代码+报告)

大学排名是一个非常重要同时也极富挑战性与争议性的问题,一所大学的综合实力涉及科研、师资、学生等方方面面。目前全球有上百家评估机构会评估大学的综合得分进行排序,而这些机构的打分也往往并不一致。在这些评分机构中,世界大学排名中心(Center for World University Rankings,缩写CWUR)以评估教育质量、校友就业、研究成果和引用,而非依赖于调查和大学所提交的数据著称,是非常有影响力的一个。 本任务中我们将根据 CWUR 所提供的世界各地知名大学各方面的排名(师资、科研等),一方面通过数据可视化的方式观察不同大学的特点,另一方面希望构建机器学习模型(线性回归)预测一所大学的综合得分。 二、作业说明 使用来自 Kaggle 的数据,构建「线性回归」模型,根据大学各项指标的排名预测综合得分。 基本要求: 按照 8:2 随机划分训练集测试集,用 RMSE 作为评价指标,得到测试集上线性回归模型的 RMSE 值; 对线性回归模型的系数进行分析。 扩展要求: 对数据进行观察与可视化,展示数据特点; 尝试其他的回归模型,对比效果; 尝试将离散的国家特征融入线性回归模型

2024-07-07

AAAI 会议论文聚类分析(数据集+代码+报告)

本次实验以AAAI 2014会议论文数据为基础,要求实现或调用无监督聚类算法,了解聚类方法。 任务介绍 每年国际上召开的大大小小学术会议不计其数,发表了非常多的论文。在计算机领域的一些大型学术会议上,一次就可以发表涉及各个方向的几百篇论文。按论文的主题、内容进行聚类,有助于人们高效地查找和获得所需要的论文。本案例数据来源于AAAI 2014上发表的约400篇文章,由UCI公开提供,提供包括标题、作者、关键词、摘要在内的信息,希望大家能根据这些信息,合理地构造特征向量来表示这些论文,并设计实现或调用聚类算法对论文进行聚类。最后也可以对聚类结果进行观察,看每一类都是什么样的论文,是否有一些主题。 基本要求: 将文本转化为向量,实现或调用无监督聚类算法,对论文聚类,例如10类(可使用已有工具包例如sklearn); 观察每一类中的论文,调整算法使结果较为合理; 无监督聚类没有标签,效果较难评价,因此没有硬性指标,跑通即可,主要让大家了解和感受聚类算法,比较简单。 扩展要求: 对文本向量进行降维,并将聚类结果可视化成散点图。 注:group和topic也不能完全算是标签

2024-07-07

基于集成学习的 Amazon 用户评论质量预测 (数据集+代码+报告)

主观题 (15分) 一、案例简介¶ 随着电商平台的兴起,以及疫情的持续影响,线上购物在我们的日常生活中扮演着越来越重要的角色。在进行线上商品挑选时,评论往往是我们十分关注的一个方面。然而目前电商网站的评论质量参差不齐,甚至有水军刷好评或者恶意差评的情况出现,严重影响了顾客的购物体验。因此,对于评论质量的预测成为电商平台越来越关注的话题,如果能自动对评论质量进行评估,就能根据预测结果避免展现低质量的评论。本案例中我们将基于集成学习的方法对 Amazon 现实场景中的评论质量进行预测。 二、作业说明 本案例中需要大家完成两种集成学习算法的实现(Bagging、AdaBoost.M1),其中基分类器要求使用 SVM 和决策树两种,因此,一共需要对比四组结果(AUC 作为评价指标): Bagging + SVM Bagging + 决策树 AdaBoost.M1 + SVM AdaBoost.M1 + 决策树 注意集成学习的核心算法需要手动进行实现,基分类器可以调库。 基本要求 根据数据格式设计特征的表示 汇报不同组合下得到的 AUC 结合不同集成学习算法的特点分析结果

2024-07-07

基于决策树的英雄联盟游戏胜负预测(数据+代码+报告包含)

英雄联盟(League of Legends,LoL)是一个多人在线竞技游戏,由拳头游戏(Riot Games)公司出品。在游戏中,每位玩家控制一位有独特技能的英雄,红蓝两支队伍各有五位玩家进行对战,目标是摧毁对方的基地水晶。水晶有多座防御塔保护,通常需要先摧毁一些防御塔再摧毁水晶。玩家所控制的英雄起初非常弱,需要不断击杀小兵、野怪和对方英雄来获得金币、经验。经验可以提升英雄等级和技能等级,金币可以用来购买装备提升攻击、防御等属性。对战过程中一般没有己方单位在附近的地点是没有视野的,即无法看到对面单位,双方可以通过使用守卫来监视某个地点,洞察对面走向、制定战术。 本数据集来自Kaggle,包含了9879场钻一到大师段位的单双排对局,对局双方几乎是同一水平。每条数据是前10分钟的对局情况,每支队伍有19个特征,红蓝双方共38个特征。这些特征包括英雄击杀、死亡,金钱、经验、等级情况等等。一局游戏一般会持续30至40分钟,但是实际前10分钟的局面很大程度上影响了之后胜负的走向。作为最成功的电子竞技游戏之一,对局数据、选手数据的量化与研究具有重要意义

2024-07-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除