- 博客(21)
- 资源 (1)
- 收藏
- 关注
原创 基于开源千文模型(如Qwen、ChatGLM等)实施如何进行动态蒸馏,详细说明操作步骤.
基于开源千文模型(如Qwen、ChatGLM等)实施如何进行动态蒸馏,详细说明操作步骤.如何进行动态蒸馏
2025-02-11 11:21:52
883
原创 基于开源千文模型(如Qwen、ChatGLM等)实施**多阶段知识蒸馏**的详细技术方案和操作流程
基于开源千文模型(如Qwen、ChatGLM等)实施**多阶段知识蒸馏**的详细技术方案和操作流程
2025-02-11 11:07:08
991
1
原创 DeepSeekMoESparse
DeepSeekMoESparse是杭州深度求索公司开发的开源大模型DeepSeek核心技术架构之一,其核心特点体现在专家混合架构(MoE)的优化创新与性能成本平衡机制上。以下是具体解析:---一、技术架构定义DeepSeekMoESparse是基于专家混合架构(Mixture of Experts, MoE)的改进型稀疏模型结构。其核心设计目标是通过动态分配计算资源,将复杂任务分解为子任务,由不同专家网络(Expert Network)并行处理,从而实现显存占用和计算量的极致优化。- MLA架构融合:结
2025-02-10 21:16:21
394
原创 DeepSeek的蒸馏技术概述
通过已有的高质量模型合成少量高质量数据作为新模型的训练数据,从而达到接近于在原始数据上训练的效果。这种技术常用于资源受限的场景,通过已有的高质量模型来合成少量高质量数据,作为新模型的训练数据,从而达到接近于在原始数据上训练的效果。南威软件通过模型蒸馏技术,将DeepSeek大模型的知识高效地迁移到轻量化的小模型中,从而在保持高性能的同时,提升了智能化发展的深度融合。综上所述,DeepSeek的蒸馏技术不仅在技术上取得了突破,还在市场上产生了深远的影响,引起了广泛的关注和讨论。蒸馏技术的原理和应用场景。
2025-02-10 00:54:40
487
原创 如何训练开源模型成为专业业务模型
去除噪声数据(如重复、敏感信息)、纠正格式错误,并对数据进行标注(如实体识别、情感分类)。使用数据并行(Data Parallelism)或模型并行(Model Parallelism)加速训练,结合混合精度(FP16/FP32)和梯度裁剪避免数值不稳定。根据业务场景需求,收集垂直领域数据(如金融、法律、医疗等),需覆盖业务核心场景的文本、图像或结构化数据。3)通过RLHF误减少诊风险。将数据转换为模型输入格式(如JSONL、TFRecord),并划分训练集、验证集和测试集(常见比例为8:1:1)。
2025-02-08 21:19:07
517
原创 如何开发一个大语言模型,开发流程及需要的专业知识
基于Transformer,调整层数(如GPT-3有96层)、注意力头数(96头)、隐藏层维度(12288)。来源:网络文本(Common Crawl)、书籍、学术论文、代码库(GitHub)。:选择模型架构(如GPT、PaLM)、框架(PyTorch、JAX)和训练策略。指标:困惑度(Perplexity)、BLEU(翻译)、ROUGE(摘要)。:明确模型用途(如对话、翻译、代码生成)和性能指标(准确性、响应速度)。目标函数:自回归(预测下一个词)或掩码语言建模(如BERT)。
2025-02-05 11:20:15
916
原创 如何在自己mac电脑上私有化部署deep seek
通过以上步骤,你可以在 Mac 电脑上成功私有化部署 DeepSeek。如果有具体问题,可以提供更多细节,我会进一步协助!
2025-02-05 11:14:34
10851
1
原创 机器人开发学习经验总结及未来看法
无监督学习则从原始数据中自动发现隐藏结构和模式,常用于数据预处理和特征提取,提高机器人的自主学习和适应能力。而深度学习作为机器学习的一个分支,利用深层神经网络处理大规模、高维度数据,广泛应用于图像识别、语音识别和自然语言处理等领域,为机器人提供高精度的感知和决策能力。同时,随着硬件技术的不断进步,如 GPU、TPU 等高性能计算设备的普及,将为机器人开发提供更加强大的计算支持。未来,机器人将更加智能化和自主化。(1) 机器人视觉:通过训练卷积神经网络(CNN)模型,使机器人能够识别环境中的物体、人脸等。
2025-01-24 18:05:58
356
原创 python学习笔记---基础学习快速上手day3---数
python学习笔记---基础学习快速上手day3---算术运算符。定义:使用小数点或科学计数法定义浮点数。运算:浮点数可以与其他数值类型进行算术运算,结果通常是浮点数。精度问题:浮点数在计算机中存储时可能会有微小的精度误差,可以使用格式化输出或 decimal 模块来处理。
2025-01-22 23:06:01
304
原创 Python内置函数详解及示例
for index, value in enumerate(['a','b','c']): print(index, value) # 输出: 0 a, 1 b, 2 c。:print(tuple([1,2,3,4,5])) # 输出: (1, 2, 3, 4, 5):print(list((1,2,3,4,5))) # 输出: [1, 2, 3, 4, 5]
2025-01-22 17:20:37
427
原创 Python的关键字及其含义和作用
Python的关键字是编程语言中具有特殊含义的保留字,不能用作变量名、函数名或其他标识符。以下是Python 3.9中的所有关键字及其含义和作用:
2025-01-22 17:03:12
735
原创 最详细的Python安装教程
(1)弹出下面对话框,根据情况选择安装路径(默认/自定义),两项都选,务必勾选“Add Python exe to PATH”(将Python添加到PATH环境变量中)的选项,我这里选择自定义。如果你的系统是Windows 10及以上,可下载右侧蓝色框最新版本的Python(如Python 3.13.x或更高版本)。2、在终端输入“python -V”(注意有空格,注意V是大写),然后回车。1、安装完成后,按下Win+R键,打开运行窗口,输入“cmd”,打开终端界面。根据自己使用情况选择合适的版本下载。
2025-01-14 23:22:15
306
翻译 python的官网下载安装教程
python的官网下载安装教程1、在python的官网下载python对应版本:https://www.python.org/downloads/windows/打开链接如下图,版本会一直更新,选择任意一个适合自己电脑的版本就好2、安装1)双击运行下载好的 python-3.7.0.exe 文件2)不改变默认进行Next下一步3)选择一个自己喜欢的安装位置 点击Install...
2019-07-13 14:13:16
173175
8
《2023年未来就业报告》:人工智能对未来就业市场的影响及应对措施
2025-01-22
未来就业趋势与技能发展分析:2023年未来就业报告
2025-01-22
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人