自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

人工智能(AI)技术,大模型技术,深度学习,机器学习,计算机视觉,AI工具实践应用等分享

任何疑问欢迎交流探讨,也可以直接与我联系,非常欢迎!

  • 博客(651)
  • 资源 (13)
  • 收藏
  • 关注

原创 【大模型与机器学习解惑】概率图模型有哪些?所有模型技术对比总结

介绍目前机器学习、深度学习和大模型技术中常用的概率图模型,并通过两个分表对比它们的基本信息及优势缺点,同时针对每个模型给出了一个应用代码示例及解释。

2025-04-06 11:54:50 758

原创 【大模型与机器学习解惑】什么是判别式模型?解决什么问题?

介绍判别式模型的基本概念、解决的问题、几个应用案例(包含代码详解)以及优化方向和未来建议。

2025-04-06 11:45:15 533

原创 【大模型与机器学习解惑】什么是生成式模型,解决了什么问题?

以下内容将围绕“生成式模型(Generative Models)”展开,介绍其概念、所要解决的问题、应用场景,以及与深度学习和大模型的关系,最后辅以一些实际案例代码与优化建议,帮助您对生成式模型形成系统认识。

2025-04-05 13:01:25 385

原创 【大模型与机器学习解惑】什么是概率图模型,为了解决什么问题?

以下内容将围绕“概率图模型(Probabilistic Graphical Models, PGM)”展开,从概念与背景、应用场景、典型案例、代码示例、优化建议及未来发展方向等方面进行系统性介绍。

2025-04-05 12:52:51 798

原创 【聚类/无监督学习】各种方法总结对比、代码案例与评估方法

针对无监督学习(聚类)方法的系统总结,包含了常见聚类算法的比较,每个算法有代码示例和性能评估。末尾附有常见的聚类评估指标说明,便于在实际项目中参考和使用。

2025-04-03 11:33:01 735

原创 【大模型与机器学习解惑】什么是A/B测试,为何进行A/B测试?

机器学习的 A/B 测试

2025-04-03 08:54:19 872

原创 【深度学习实战】当前三个最佳图像分类模型的代码详解

给出三个在当前图像分类任务中精度表现突出的模型示例,分别基于 Swin Transformer、EfficientNet 与 ConvNeXt

2025-04-01 20:44:35 928

原创 【深度学习实战】图像二分类任务的精度优先模型推荐

图像二分类任务的精度优先模型推荐

2025-04-01 20:37:37 1264

原创 【机器学习解惑】回归模型评估指标的局限性有哪些,如何进行解决

回归模型评估指标的局限性有哪些,如何进行解决

2025-04-01 13:30:53 729

原创 【机器学习解惑】多分类问题的性能如何评估?

多分类评估指标概述多分类问题的性能评估需综合考虑模型对不同类别的识别能力、类别不平衡影响以及预测概率的可靠性。单一指标可能无法全面反映模型表现,需结合业务场景选择合适指标。

2025-04-01 13:27:51 996

原创 【机器学习解惑】分类模型评估指标的局限性有哪些,如何进行解决?

分类模型评估指标的局限性有哪些,如何进行解决?

2025-04-01 11:47:23 521

原创 【机器学习解惑】什么是ROC曲线,解决了什么问题

在二分类任务中,我们通常需要对分类器的预测性能进行评估。除了常用的准确率(Accuracy),也常使用精确率(Precision)、召回率(Recall)、F1-Score等指标。但在很多场景下,由于正负样本不平衡、不同类型错误的代价差异等原因,仅凭一个或几个简单指标并不能全面反映模型的性能。ROC(Receiver Operating Characteristic)曲线及其衍生指标AUC(Area Under the Curve)就是在这种背景下产生并被广泛使用的指标之一

2025-04-01 11:44:42 966

原创 【大模型与机器学习解惑】什么是采样?采样方法与技术综合教程

本教程从均匀分布随机数出发,系统介绍了反向变换采样、接受-拒绝采样、重要性采样、分层采样等常见方法,以及在实际应用中常用的Box-Muller 高斯采样与MCMC (Metropolis-Hastings) 等高级算法。我们还介绍了贝叶斯网络前向采样和在不均衡数据分类任务中广泛使用的重采样技术。最后,对各采样方法的优缺点、适用场景和前沿挑战进行了总结。采样在统计推断、机器学习与数据分析中扮演着关键角色:从大规模数据中的随机选取到复杂高维分布的蒙特卡罗近似,都离不开合适的采样策略。随着数据和模型规模的不断

2025-04-01 00:34:02 1227

原创 【机器学习与大模型解惑】Transformer架构为何可以构建大模型

详细地讲解为什么 Transformer 架构可以构建大模型,并且与其他神经网络架构的区别。

2025-03-30 23:34:34 676

原创 【机器学习与大模型解惑】多数据类型中类别不平衡问题的处理方法及代码分析

本文围绕六种典型数据类型(结构化数值、文本、时序、图像、图结构、音频),分别选取当前在类别不均衡问题中最具代表性或表现最优的处理方法,系统探讨其原理、代码实现、优势与劣势、可行优化方向及未来研究趋势。

2025-03-29 16:04:55 602

原创 【大模型与机器学习解惑】图像数据不足时怎么办?

【大模型与机器学习解惑】图像数据不足时怎么办?数据增强和迁移学习是资源有限时的首选。GAN适合需要生成多样化数据的场景,但需高性能计算资源。半监督和自监督适合有大量未标注数据的场景,可显著提升模型鲁棒性。

2025-03-29 09:40:02 335

原创 【大模型与机器学习解惑】Word2Vec的突破性意义及核心问题解决

Word2Vec的突破性意义及核心问题解决

2025-03-29 09:29:52 355

原创 【机器学习解惑】文本表示模型解决的核心问题与分类

内容涵盖文本表示模型的概念、核心问题、常见模型对比(采用表格形式)、每个模型的代码案例、详细解释,以及优化思路和未来研究方向。

2025-03-28 16:46:20 841

原创 【机器学习解惑】为何要构造新的特征?

给出一个详细的讲解,内容涵盖组合特征的概念、作用、解决的问题及适用场景,同时附带三个代码案例,并给出优化建议和未来发展方向。

2025-03-28 15:09:31 790

原创 【机器学习解惑】什么是高维组合特征?如何应用?

以下内容将围绕“机器学习中的高维组合特征处理”展开,深入解释其概念、常见方法、适用场景以及使用时机,并给出示例代码、未来优化思路和建议。

2025-03-28 08:05:37 800

原创 【大模型开发】详解大模型开发工具dify

内容将对大模型开发工具 Dify进行系统性介绍,并提供适合不同行业和业务场景的应用示例、配套代码思路及优化方案,最后给出未来发展建议。

2025-03-28 07:53:37 959

原创 【大模型开发】机器学习与大模型算法工程师的自我修养

机器学习与大模型算法工程师的自我修养的系统性阐述,帮助读者更全面地理解如何在技术与职场成长中不断提升自我修养

2025-03-26 22:49:14 645

原创 【机器学习解惑】什么是类别特征?与数值特征区别及编码方式

在机器学习应用中,特征通常分为数值特征与类别特征。数值特征可能是年龄、身高、价格等,而类别特征(Categorical Feature)则表示无法直接度量其大小关系的离散变量,比如性别(male/female)、城市(北京/上海/广州/…)等。由于类别特征与数值特征呈现不同的数据分布与含义,对类别特征的处理方式往往需要进行额外的编码或转换

2025-03-26 08:41:49 1106

原创 【大模型开发】大模型开发工具FastGPT 详细介绍及实践指南

FastGPT 详细介绍及实践指南

2025-03-26 08:39:16 945

原创 【机器学习解惑】为什么要对特征进行归一化?

特征归一化在很多机器学习和深度学习任务中都显得必不可少,有助于提升模型性能与稳定性,是数据预处理阶段常见且关键的一步

2025-03-26 07:45:04 727

原创 【大模型开发】大模型开发工具Autogenstudio详解与案例分析

AutoGen Studio 是微软推出的低代码开发工具,基于开源框架 AutoGen 构建,旨在简化多智能体(Multi-Agent)系统的开发与管理。通过可视化界面和模块化设计,开发者无需深入编码即可快速搭建复杂工作流,适用于构建虚拟助手、协作机器人、智能客服等应用

2025-03-26 07:38:07 580

原创 【大模型开发】大模型输出答案评估方法、解决方案与未来方向

大模型输出答案评估方法、解决方案与未来方向

2025-03-25 20:52:43 610

原创 【大模型开发】如何对大模型输出答案进行正确性评估?

大模型输出答案的质量评估是多层次、多维度的复杂任务。在实践中,可结合传统自动化指标(BLEU、ROUGE、BERTScore等)与主观人工标注或半自动化流程,以获得较为全面的评估结论。同时,通过加强事实性验证、引入外部知识对齐和开发更细分的评估指标,可进一步提高对大模型真实性与可靠性的度量。面向未来,还需从交互式评估、行业定制化和动态权重策略等方向开展深入研究,以适应不断扩大的应用需求与技术演进

2025-03-25 20:48:34 957

原创 【大模型开发】深度解析大模型知识时效性问题与常见解决方案

大模型知识时效性问题分析与解决方案

2025-03-25 10:43:51 1326

原创 【大模型开发】大模型知识的时效性问题与解决方案

针对“大模型知识的时效性问题”进行较为完整的分析,包括原因、常见解决方案、代码案例与未来优化方法与建议,供参考。

2025-03-25 10:37:51 741

原创 【大模型开发】大模型知识理解力问题与解决方法

以下是一篇关于大模型在知识理解力方面存在的问题的示例性文章,包含问题来源和成因分析,以及可能的解决方案与示例代码,帮助读者更好地理解和应对大模型在知识理解方面的不足。

2025-03-21 13:18:52 713

原创 【大模型开发】大模型处理时间信息的实战扩展

通过上述扩展方案,时间信息处理系统可具备以下能力: - 解析复杂的时间表达式(如"下下个月最后一个工作日下午茶时间") - 智能处理跨语言、跨文化的特殊时间概念 - 在分布式系统中保持高性能和高可靠性 - 结合业务场景进行深度时间推理 建议在实际项目中采用模块化设计,将时间解析、时区转换、节假日计算等功能拆分为独立服务,通过API网关统一调度,同时建立完善的监控告警体系保障服务稳定性。

2025-03-21 11:58:31 835

原创 【大模型开发】大模型在提问和回答中如何处理时间信息

关于大模型在提问和回答中如何处理时间信息的文章示例,内容包含目录、原理介绍、应用场景分析以及案例代码,帮助读者了解并掌握在实际开发或使用大模型时,如何让模型理解并正确输出与时间相关的答案。

2025-03-21 11:51:42 741

原创 【大模型开发】大模型幻觉原因与解决方法

大模型幻觉是基于概率分布的语言生成机制所带来的一种常见现象,难以彻底消除。通过检索增强(RAG)、Prompt Engineering、链式推理和后处理验证等手段,可以在许多实际应用中有效减少幻觉发生率。在生产环境中,通常会使用多重验证(交叉验证、结构化检索、事实检测等)结合专业领域的知识库来进一步提高准确性。

2025-03-21 09:59:02 958

原创 【大模型开发】 RAG+AI 工作流+智能体(AI Agent) 打造智能化开发方案

以下内容将从概念和典型应用流程的角度,为你介绍如何将 RAG(Retrieval-Augmented Generation)+ AI 工作流 + Agent 技术相结合,打造一条以知识检索、自动化推理、执行为核心的智能化程序开发方案,并结合常见的开发框架做一些介绍。

2025-03-20 09:10:16 1289

原创 【大模型开发】deepseek配合开源AI agent框架开发智能体程序最快和最强分析

基于DeepSeek开发智能体程序时,选择合适的开源AI Agent框架可以显著提升开发效率和性能表现。结合搜索结果中的技术特性与案例实践,以下推荐几款在速度、功能及生态支持上表现突出的框架

2025-03-20 08:51:53 844

原创 【大模型开发】为何基于Transformer的神经网络可以无限扩大

可以先用一句话概括:**Transformer 之所以能越做越大,主要是因为它的结构更方便并行、更容易控制梯度流动,而且注意力机制可以在大规模情况下有效地“看”全局信息。**而传统的深度网络在扩大时容易遇到很多训练和结构上的瓶颈,比如梯度消失、梯度爆炸、难以并行、计算量随深度或输入大小呈爆炸式增长等等,从而使得它们很难“一路无限扩张”下去

2025-03-20 07:55:41 527

原创 【深度学习开发】目标检测集成学习中的NMS与WBF

NMS 适合单模型去重,WBF 适合多模型融合,而结合二者可以达到更好的平衡,特别适合在多模型目标检测和多尺度融合任务中使用。

2025-03-20 07:37:49 597

原创 【大模型开发】开源智能体AgentLaboratory(AMD与约翰·霍普金斯大学)进行详细介绍

AgentLaboratory 是由 AMD 与约翰·霍普金斯大学联合开发的 全流程自动化科研框架,旨在通过多智能体协作系统,实现从文献综述、实验设计到论文撰写的科研全流程自动化。该系统基于大型语言模型(LLM)驱动,显著降低了科研成本(最高节省 84%),同时提升了研究效率与代码质量。

2025-03-19 18:23:17 695

原创 【大模型开发】清华与中南大联合开源3D交互实体AI Agent框架LEGENT开发指南

以下是针对清华大学与中南大学联合开源的3D交互实体AI Agent框架LEGENT的深度解析与开发指南,结合其核心创新点、技术架构及实操案例进行详细说明:

2025-03-19 11:49:59 956

苹果与橘子图像数据集

苹果与橘子图像数据集. 一共包括1261张各种苹果的图像和1267张各种橘子的图像。可以用于橘子和苹果纹理转换等的深度学习训练。

2024-02-12

人脸图像集

人脸图像集. 一共9573张各种人脸图像

2024-02-12

垃圾邮件数据集

垃圾邮件数据集。包括16556个正常邮件内和27360个垃圾邮件内容。

2024-02-12

危险驾驶行为图像数据集-开车电话-喝水等

危险驾驶行为图像数据集-开车电话-喝水等。 车内监控危险驾驶行为图像数据,包括电话、喝水等危险行为,还有txt和json格式的目标位置坐标数据,包括常见的一共2000张图像,包括1000张RGB彩色图像,1000张红外图像。可应用于驾驶员监控。

2024-02-12

美国联邦选举委员会-政治竞选赞助方面的数据集

美国联邦选举委员会-政治竞选赞助方面的数据集。 美国联邦选举委员会发布了有关政治竞选赞助方面的数据。其中包括赞助者的姓名、职业、雇主、地址以及出资额等信息。样本数据量100w条左右。可用于机器学习和数据分析

2024-02-12

食品营养信息数据集

食品营养信息数据集。美国农业部(USDA)制作了一份有关食物营养信息的数据,包括食品的描述,标签,厂家,分组,成分和营养等信息。样本有6636条

2024-02-12

海地地震危机数据集

海地地震危机数据集。海地地震危机与求助数据,可以根据数据标记地图求助信息。

2024-02-12

全美婴⼉姓名数据集

全美婴⼉姓名数据集。从1880年-2010年的全美婴儿姓名数据的数据集,包含出生年份,性别,名字等。利用这份数据可以对婴儿名字进行分析。

2024-02-12

泰坦尼克号数据集

泰坦尼克号数据集。 Titanic数据集在数据分析领域是十分经典的数据集。泰坦尼克号轮船的沉没是历史上最为人熟知的海难事件之一。1912年4月15日,在她的处女航中,泰坦尼克号在与冰山相撞后沉没,在船上的 2224 名乘客和机组人员中,共造成 1502 人死亡。这场耸人听闻的悲剧震惊了国际社会,从而促进了船舶安全规定的完善。造成海难失事的原因之一是乘客和机组人员没有足够的救生艇。尽管在沉船事件中幸存者有一些运气因素,但有些人比其他人更容易存活下来,究竟有哪些因素影响着最终乘客的生存与否呢? 数据集包含11个特征,分别是: Pclass:乘客所持票类,有三种值(lower,middle,upper) Survived:0代表死亡,1代表存活 Name:乘客姓名 Sex:乘客性别 Age:乘客年龄(有缺失) SibSp:乘客兄弟姐妹/配偶的个数(整数值) Parch:乘客父母/孩子的个数(整数值) Ticket:票号(字符串) Fare:乘客所持票的价格(浮点数,0-500不等) Cabin:乘客所在船舱(有缺失) Embark:乘客登船港口:S、C、Q(有缺失)

2024-02-12

美国政府网站访问情况数据集

美国政府网站访问情况数据集。美国政府网站http://USA.gov部分用户匿名数据。数据是JSON格式,包括用户所在时区,用户终端信息等。

2024-02-12

电影评分数据集-用于电影推荐系统

电影评分数据集-用于电影推荐系统。有两个数据集。 数据集1:包括movies.csv和ratings.csv两个文件。movies.csv文件总共有27,279行,除第1行是表头外,每行用3列表示一部电影,分别为电影id(movieId)、电影名称(title)和电影类型(genres)。ratings.csv文件总共有20,000,264行,除第1行是表头外,每行用4列表示一位用户对一部电影的评分,分别为用户id(userId)、电影id(movieId)、评分(rating)和评分时间(timestamp)。这里的评分时间是用unix时间戳表示的。在这个数据集中并没有提供用户的个人信息,可能是出于保护用户隐私的考虑。 数据集2:ratings.dat是另一个电影评分数据集。包含了6000多位用户对近3900个电影的共100万(1,000,209)条评分数据,评分均为1~5的整数,其中每个电影的评分数据至少有20条。

2024-02-12

住房信息数据集

住房信息数据集。 housing.data 包含506个样本,样本包含14个不同的特征: 1.人均犯罪率。 2.占地面积超过 25000 平方英尺的住宅用地所占的比例。 3.非零售商业用地所占的比例(英亩/城镇)。 4.查尔斯河虚拟变量(如果大片土地都临近查尔斯河,则为 1;否则为 0)。 5.一氧化氮浓度(以千万分之一为单位)。 6.每栋住宅的平均房间数。 7.1940 年以前建造的自住房所占比例。 8.到 5 个波士顿就业中心的加权距离。 9.辐射式高速公路的可达性系数。 10.每 10000 美元的全额房产税率。 11.生师比(按城镇统计)。 12.1000 * (Bk - 0.63) ** 2,其中 Bk 是黑人所占的比例(按城镇统计)。 13.较低经济阶层人口所占百分比 14.房价

2024-02-12

葡萄酒数据集

葡萄酒数据集。 Wine葡萄酒数据集是来自UCI上面的公开数据集,这些数据是对意大利同一地区种植的葡萄酒进行化学分析的结果,这些葡萄酒来自三个不同的品种。该分析确定了三种葡萄酒中每种葡萄酒中含有的13种成分的数量。从UCI数据库中得到的这个wine数据记录的是在意大利某一地区同一区域上三种不同品种的葡萄酒的化学成分分析。数据里含有178个样本分别属于三个类别,这些类别已经给出。每个样本含有13个特征分量(化学成分),分析确定了13种成分的数量,然后对其余葡萄酒进行分析发现该葡萄酒的分类。 每行代表一种酒的样本,共有178个样本;一共有14列,其中,第一个属性是类标识符,分别是1/2/3来表示,代表葡萄酒的三个分类。后面的13列为每个样本的对应属性的样本值。剩余的13个属性是,酒精、苹果酸、灰、灰分的碱度、镁、总酚、黄酮类化合物、非黄烷类酚类、原花色素、颜色强度、色调、稀释葡萄酒的OD280/OD315、脯氨酸。其中第1类有59个样本,第2类有71个样本,第3类有48个样本

2024-02-12

商铺logo图像集

商铺logo图像集. 样本数量:3725 简介:包括星巴克、屈臣氏、宝岛眼镜等常见的100个不同商家店铺的logo招牌图像数据集,每个商家的logo图像有400个左右。可以用于深度学习图像分类训练的学习。

2024-02-12

糖尿病数据集

糖尿病数据集。数据包括768个样本。可用于机器学习研究。 1、该数据集最初来自美国糖尿病/消化/肾脏疾病研究所。数据集的目标是基于数据集中包含的某些诊断测量来诊断性的预测 患者是否患有糖尿病。   2、从较大的数据库中选择这些实例有几个约束条件。尤其是,这里的所有患者都是Pima印第安至少21岁的女性。   3、数据集由多个医学预测变量和一个目标变量组成Outcome。预测变量包括患者的怀孕次数、BMI、胰岛素水平、年龄等。   4、数据集的内容是皮马人的医疗记录,以及过去5年内是否有糖尿病。所有的数据都是数字,问题是(是否有糖尿病是1或0),是二分类问题。数据有8个属性,1个类别

2024-02-12

乳腺癌数据集.zip

乳腺癌数据集。数据集来自UCI机器学习存储库的wdbc.data(威斯康星乳腺癌数据集),其中包含了569个正常和异常的细胞样本,特征共30个。在整个569个患者中,一共有357个是良性,212个是恶性。

2024-02-12

阿里真实用户-商品行为数据-推荐系统

阿里真实用户-商品行为数据-推荐系统应用。 样本数量:tianchi_mobile_recommend_train_item 商品信息 50w左右 tianchi_mobile_recommend_train_user 用户商品交互信息 500w左右 tianchi_mobile_recommend_train_user_down2 用户商品交换信息2 500w左右 简介:以阿里巴巴移动电商平台的真实用户-商品行为数据为基础,同时提供移动时代特有的位置信息。通过大数据和算法构建面向移动电子商务的商品推荐模型,挖掘数据背后丰富的内涵,为移动用户在合适的时间、合适的地点精准推荐合适的内容。提供的数据包含两个部分。第一部分是用户在商品全集上的移动端行为数据,表名为tianchi_mobile_recommend_train_user和tianchi_mobile_recommend_train_user_down2。 第二个部分是商品子集,表名为tianchi_mobile_recommend_train_item。 可应用于推荐系统的训练与测试。

2024-02-12

电商网站销售数据

电商网站销售数据。样本数量:541909 简介:数据集来自一个在英国注册的在线电子零售公司,在2010年12月1日到2011年12月9日期间发生的网络交易数据,共有541909条记录、8个字段。

2024-02-12

搜狗用户画像数据集

搜狗用户画像数据集。20w(20万)。 简介:在现代广告投放系统中,多层级成体系的用户画像构建算法是实现精准广告投放的基础技术之一。其中,基于人口属性的广告定向技术是普遍适用于品牌展示广告和精准竞价广告的关键性技术。人口属性包括自然人的性别、年龄、学历等基本属性。在搜索竞价广告系统中,用户通过在搜索引擎输入具体的查询词来获取相关信息。因此,用户的历史查询词与用户的基本属性及潜在需求有密切的关系。 举例如下: 1、 年龄在19岁至23岁区间的自然人会有较多的搜索行为与大学生活、社交等主题有关 2、 男性相比女性会在军事、汽车等主题有更多的搜索行为 3、 高学历人群会更加倾向于获取社会、经济等主题的信息 用户画像是对用户的描述,一般用来精准营销。搜狗用户画像,通过搜狗搜索数据来描述用户,进行数据挖掘,使用在大数据精准营销中。 提供用户历史一个月的查询词与用户的人口属性标签(包括性别、年龄、学历)做为训练数据,通过机器学习、数据挖掘技术构建分类算法来对新增用户的人口属性进行判定。 属性字段说明:提供用户历史一个月的查询词与用户的人口属性标签(包括性别、年龄、学历等信息)

2024-02-12

开车打手机图像数据集.zip

开车打手机图像数据集。样本数量:1051 简介:包含车内开车打手机的图像和对应手机位置的标记文件,标记文件为xml格式。可以用于打手机目标检测的训练数据集。

2024-02-12

PaddleOCR文字识别的完整代码

展示了如何使用PaddleOCR库来进行图像文字识别。通过安装PaddleOCR、加载模型、进行OCR识别,并绘制结果,我们可以轻松地实现图像中的文字识别任务。如果需要在更复杂的任务中应用,PaddleOCR提供了丰富的API接口,可对识别结果进行后处理和自定义调整。

2025-02-21

论文:DeepSeek-V3 Technical Report

**DeepSeek-V3 技术报告** **摘要** DeepSeek-V3 是 DeepSeek 团队推出的最新一代人工智能模型,旨在通过技术创新和性能优化,进一步提升模型在多任务、多领域场景下的表现。本技术报告详细介绍了 DeepSeek-V3 的架构设计、训练方法、性能评估以及应用场景,展示了其在自然语言处理、代码智能、多模态理解等方面的突破性进展。 **核心内容** 1. **架构设计** - **模块化设计**:DeepSeek-V3 采用模块化架构,支持灵活的任务定制和扩展。 - **混合专家系统(MoE)**:引入混合专家机制,通过动态路由实现任务的高效分配与处理。 - **多模态融合**:支持文本、图像、代码等多种数据类型的联合建模与理解。 2. **训练方法** - **大规模预训练**:基于海量高质量数据,采用自监督学习方法进行预训练,提升模型的泛化能力。 - **多任务学习**:通过多任务联合训练,增强模型在跨领域任务中的适应性和表现。 - **高效微调**:提供轻量级微调工

2025-02-21

论文:DeepSeek-Coder: When the Large Language Model Meets Programming - The Rise of Code Intelligence

**DeepSeek-Coder:当大语言模型遇见编程——代码智能的崛起** **摘要** DeepSeek-Coder 是一项探索大语言模型(LLM)与编程领域深度融合的研究计划,旨在推动代码智能技术的快速发展。通过结合大语言模型的强大能力与编程领域的专业知识,DeepSeek-Coder 致力于实现代码生成、理解、优化和调试的智能化,为开发者提供高效、精准的工具支持。 该计划的核心研究方向包括: 1. **代码生成与补全**:利用大语言模型生成高质量代码,并提供智能化的代码补全建议,提升开发效率。 2. **代码理解与文档化**:通过自然语言处理技术,自动解析代码逻辑并生成相应的文档,降低代码维护成本。 3. **代码优化与重构**:识别代码中的性能瓶颈和潜在问题,提供优化建议和自动化重构方案。 4. **智能调试与错误修复**:结合程序分析与机器学习技术,快速定位代码错误并生成修复方案。 5. **开源与开发者生态**:构建开放的代码智能平台,促进开发者社区的协作与创新。 DeepSeek-Coder 的目标是通过大语言模型与编程技术的结

2025-02-21

论文细节:DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models

**DeepSeekMoE:迈向混合专家语言模型的终极专家专业化** **摘要** DeepSeekMoE 是一项专注于提升混合专家(Mixture-of-Experts, MoE)语言模型性能的研究计划,旨在通过极致的专家专业化优化模型的表现。混合专家模型通过将任务分配给多个专业化子网络(即“专家”)来提高效率和性能,而 DeepSeekMoE 进一步推动了这一范式,致力于实现每个专家的高度专业化。 该研究重点包括: 1. **专家专业化**:通过精细化的训练和架构设计,使每个专家在特定领域或任务上达到最优性能。 2. **动态路由优化**:改进模型中的路由机制,确保输入数据能够高效分配给最合适的专家。 3. **可扩展性与效率**:在保持高性能的同时,降低计算资源消耗,使模型更适用于实际应用场景。 4. **开源与协作**:推动开源社区的共同发展,促进技术共享和创新。 DeepSeekMoE 的目标是为混合专家模型设立新的技术标准,推动语言模型在专业化、效率和性能方面的突破,同时为人工智能的长期发展提供可持续的技术支持。

2025-02-21

论文细节:DeepSeek LLM Scaling Open-Source Language Models with Longtermism

DeepSeek LLM:以长期主义扩展开源语言模型 摘要 DeepSeek LLM 是一项致力于推动开源语言模型发展的计划,其核心目标是通过可扩展性和长期可持续性来构建更强大的语言模型。该项目强调开发具有鲁棒性、可扩展性且符合伦理规范的语言模型,并推动其被全球社区广泛采用和持续改进。通过融入长期主义理念,DeepSeek LLM 旨在确保这些模型的开发不仅满足当前需求,还能为未来社会带来长期价值。项目重点关注开源协作、技术普惠以及对社会和环境的积极影响,致力于推动人工智能技术的可持续发展。

2025-02-21

论文:DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

DeepSeek-R1实现技术细节

2025-02-21

chatGPT从入门到精通

chatGPT从入门到精通,一共116页,是chatgpt入门的优秀文档。

2024-12-21

用于安全带检测的车内驾驶安全带图像

一共包括1080张车内带有安全带的人员驾驶图像,同时包括对应的1080个安全带目标检测的位置标记文件。可以用于驾驶员监控的安全带的目标检测训练。

2024-06-30

深度学习-人脸卡通化-实现代码

python环境,包括推理和训练代码。包括pytorch模型和onnx模型。有预训练模型,可以直接对人脸图像进行卡通化,有训练代码,可以自己根据需要,使用自己的数据集,重新训练自己的模型。

2024-02-16

深度学习-目标检测-密集人头检测数据集002

深度学习-目标检测-密集人头检测数据集 注意由于系统对文件大小限制,需要分成2个文件,仅仅”深度学习-目标检测-密集人头检测数据集001“文件需要积分,其他不需要。该文件下载后,请继续下载另外一个,在同一个目录下进行解压即可。另外一个与该文件同在一个下载资源中,文件名“深度学习-目标检测-密集人头检测数据集001“ brainwash数据集是一个密集人头检测数据集,拍摄在人群出现的各种区域,然后对这群人进行标注而得到的数据集。包含三个部分,训练集:10769张图像81975个人头,验证集:500张图像3318个人头。测试集:500张图像5007个人头。可以用于密集人头目标检测的训练。

2024-02-12

深度学习-目标检测-密集人头检测数据集001

深度学习-目标检测-密集人头检测数据集,brainwash数据集是一个密集人头检测数据集,拍摄在人群出现的各种区域,然后对这群人进行标注而得到的数据集。包含三个部分,训练集:10769张图像81975个人头,验证集:500张图像3318个人头。测试集:500张图像5007个人头。可以用于密集人头目标检测的训练。注意由于系统对文件大小限制,需要分成2个文件,仅仅”深度学习-目标检测-密集人头检测数据集001“文件需要积分,其他不需要。该文件下载后,请继续下载另外一个,在同一个目录下进行解压即可。另外一个与该文件同在一个下载资源中,文件名“深度学习-目标检测-密集人头检测数据集002“

2024-02-12

深度学习-目标检测-人头数据集002

深度学习-目标检测-人头数据集,一共有7581张包括各种人头场景的图像,每张图像有对应的人头位置的标记文件。用于深度学习人头目标检测训练。注意由于系统对文件大小限制,需要分成2个文件,仅仅”深度学习-目标检测-人头数据集001“文件需要积分,其他不需要。 该文件下载后,请继续下载另外一个,在同一个目录下进行解压即可。另外一个与该文件同在一个下载资源中,文件名“深度学习-目标检测-人头数据集001“

2024-02-12

深度学习-目标检测-人头数据集001

深度学习-目标检测-人头数据集,一共有7581张包括各种人头场景的图像,每张图像有对应的人头位置的标记文件。用于深度学习人头目标检测训练。注意由于系统对文件大小限制,需要分成2个文件,仅仅”深度学习-目标检测-人头数据集001“文件需要积分,其他不需要。 该文件下载后,请继续下载另外一个,在同一个目录下进行解压即可。另外一个与该文件同在一个下载资源中,文件名“深度学习-目标检测-人头数据集002“

2024-02-12

深度学习-猫和狗图像集

一共30000(3w)张左右图像,包括各种猫和狗的图像,可以用于深度学习的分类训练。

2024-02-12

车内驾驶员行为图像集包括打手机-喝水-转身等情景

车内驾驶员行为图像集包括打手机-喝水-转身等情景,样本数量:2w左右

2024-02-12

深度学习-表情识别-人脸表情数据集002

深度学习-表情识别-人脸表情数据集。注意由于文件大小限制,需要分成2个文件,仅仅”深度学习-表情识别-人脸表情数据集001“文件需要积分,其他不需要。该文件下载后,请继续下载另外一个,在同一个目录下进行解压即可。另外一个与该文件同在一个下载资源中,文件名“深度学习-表情识别-人脸表情数据集001“

2024-02-12

深度学习-表情识别-人脸表情数据集001

深度学习-表情识别-人脸表情数据集。注意由于文件大小限制,需要分成2个文件,仅仅”深度学习-表情识别-人脸表情数据集001“文件需要积分,其他不需要。该文件下载后,请继续下载另外一个,在同一个目录下进行解压即可。另外一个与该文件同在一个下载资源中,文件名“深度学习-表情识别-人脸表情数据集002“

2024-02-12

各种室内场景图像集003

各种室内场景图像集003。注意由于文件大小限制,需要分成3个文件,仅仅”各种室内场景图像集001“文件需要积分,其他两个并不需要。该文件下载后,请继续下载另外两个,在同一个目录下进行解压即可。另外两个与该文件同在一个下载资源中,文件名“各种室内场景图像集001“和 “各种室内场景图像集002“. 数据集包含67个室内类别,总共15620个图像。图像数量因类别而异,但每个类别至少有100张图像。

2024-02-12

各种室内场景图像集002

各种室内场景图像集002。注意由于文件大小限制,需要分成3个文件,仅仅”各种室内场景图像集001“文件需要积分,其他两个并不需要。该文件下载后,请继续下载另外两个,在同一个目录下进行解压即可。另外两个与该文件同在一个下载资源中,文件名“各种室内场景图像集001“和 “各种室内场景图像集003“. 数据集包含67个室内类别,总共15620个图像。图像数量因类别而异,但每个类别至少有100张图像。

2024-02-12

各种室内场景图像集001

各种室内场景图像集001。注意由于文件大小限制,需要分成3个文件,仅仅该文件需要积分,其他两个并不需要。该文件下载后,请继续下载另外两个在同一个目录下进行解压即可。另外两个与该文件同在一个下载资源中,文件名“各种室内场景图像集002“和 “各种室内场景图像集003“. 数据集包含67个室内类别,总共15620个图像。图像数量因类别而异,但每个类别至少有100张图像。

2024-02-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除