
关于大模型的那些事儿
文章平均质量分 78
本专栏旨在为读者提供一个全面、系统的大模型知识平台。通过深入浅出的介绍和解析,帮助读者理解大模型的基本原理、技术特点、应用场景及未来发展趋势。无论是对于人工智能领域的专业人士,还是对科技动态感兴趣的普通读者,本专栏都将提供有价值的信息和见解。
anneCoder
I believe...
展开
-
一些常用的深度学习可视化平台:TensorBoard、Weights & Biases (wandb)、VisualDL
VisualDL是百度开发的深度学习可视化平台,支持PaddlePaddle、PyTorch和MXNet等主流框架。TensorBoard是TensorFlow自带的可视化工具,支持实时监控训练指标、模型计算图、嵌入可视化等。wandb是一个功能强大的实验跟踪和可视化平台,支持超参数搜索、模型存储、团队协作等。运行代码后,可以通过VisualDL的界面查看训练过程中的指标变化、模型结构等。运行代码后,可以在wandb的仪表盘上查看训练过程中的指标变化、模型性能等。,然后在浏览器中输入。原创 2025-04-29 17:31:20 · 179 阅读 · 0 评论 -
大模型时代:主流训练、微调、推理与部署框架深度解析及对比
在大模型时代,选择适合的框架对于模型的训练、微调、推理和部署至关重要。本文将介绍几种常用的框架,并通过代码示例和表格对比,帮助读者了解这些框架的特点和使用场景。原创 2025-03-17 14:37:03 · 96 阅读 · 0 评论 -
模型评测:基于Python和PyTorch的深度学习模型性能评估
数据准备:收集并预处理评测所需的数据集,确保数据的质量和一致性。模型加载:加载预训练的深度学习模型,或者从训练好的模型检查点恢复模型。评测指标选择:根据任务类型(如分类、回归、检测等)选择合适的评测指标,如准确率、召回率、F1分数、均方误差等。模型评估:使用评测数据集对模型进行评估,计算并记录评测指标。结果分析:对评测结果进行深入分析,识别模型的优点和不足,提出改进建议。原创 2025-02-20 16:29:54 · 765 阅读 · 0 评论 -
ModelScope竞品分析:在面对Hugging Face Hub和百度PaddleHub等竞品时
ModelScope的竞品主要包括Hugging Face Hub、百度PaddleHub等知名的MaaS平台。这些平台同样提供了丰富的预训练模型、数据集、工具以及社区支持,帮助开发者快速构建和部署AI应用。:Hugging Face Hub是一个开源的机器学习模型和数据集共享平台,提供了大量的预训练模型和数据集,涵盖了自然语言处理、计算机视觉等多个领域。此外,Hugging Face还提供了详细的文档、教程和社区支持,帮助开发者更好地理解和使用平台上的资源。百度PaddleHub。原创 2025-02-20 16:23:03 · 1265 阅读 · 0 评论 -
Qwen大模型的深度解析:原理、架构、代码实现与微调
Qwen,作为阿里巴巴集团推出的高性能多模态人工智能模型,自发布以来便以其卓越的性能和广泛的应用前景吸引了业界的广泛关注。Qwen作为阿里巴巴集团推出的高性能多模态人工智能模型,在原理、架构、代码实现以及微调等方面都展现出了卓越的性能和广泛的应用前景。其核心原理在于通过大规模数据的预训练和特定任务的微调,使模型能够理解和生成多种模态的信息,包括文本、图像、音频等。这包括使用标注数据进行训练,以优化模型在特定任务上的性能。:使用标注数据进行模型训练,监控训练过程中的损失和指标,以及进行必要的模型保存和验证。原创 2025-02-20 16:18:56 · 1945 阅读 · 0 评论 -
大模型训练微调工具对比:Megatron-DeepSpeed、Axolotl、DeepSpeed、Accelerate和Unsloth
在对比微调工具时,还需要了解几种常见的微调技术,包括prompt tuning、prefix tuning、LoRA、p-tuning等。这些技术可以在不改变预训练模型大部分参数的情况下,通过添加额外的参数或编码层来实现对特定任务的适应。:固定预训练参数,为每一个任务额外添加一个或多个embedding,之后拼接query正常输入LLM,并只训练这些embedding。:与prompt tuning类似,但利用多层感知机编码prefix,不再像prompt tuning继续输入LLM。LoRA。原创 2025-02-20 16:06:55 · 887 阅读 · 0 评论 -
DeepSeek的微调及其与其他模型的区别
LoRA(Low-Rank Adaptation)是一种针对大型语言模型的微调技术,旨在降低微调过程中的计算和内存需求。通过引入低秩矩阵来近似原始模型的全秩矩阵,LoRA能够显著减少需要更新的参数量,从而加快训练速度并降低计算成本。这些优势使得DeepSeek在多个应用场景中具有独特的竞争力,特别是在需要处理大规模文本数据、跨模态任务或中文环境下的应用场景中。DeepSeek的微调过程是一个复杂但高效的过程,旨在通过调整模型参数来提升模型在特定任务上的性能。这些参数的选择将直接影响模型的训练效果和速度。原创 2025-02-20 15:59:42 · 517 阅读 · 0 评论 -
多模态微调框架对比与介绍:CLIP, UNITER, Aurora
CLIP是一种基于对比学习的方法,通过大规模图像-文本对数据集进行预训练,学习图像和文本之间的语义对应关系。在微调阶段,CLIP可以通过固定预训练权重或微调部分权重来适应特定任务。# 加载CLIP模型和预处理函数# 准备图像和文本数据# 计算图像和文本特征,并计算余弦相似度# 打印最相似的文本索引UNITER采用多任务学习的方法,将图像-文本匹配、图像描述生成、视觉问答等多个任务结合起来进行预训练,学习更通用的多模态表示。在微调阶段,UNITER可以根据特定任务调整模型结构,如添加额外的解码器。原创 2025-02-20 15:42:06 · 351 阅读 · 0 评论 -
LLaMA-Factory 微调 Qwen2-VL 进行人脸情感识别
为了提升人脸情感识别的准确性和鲁棒性,本文采用LLaMA-Factory框架对Qwen2-VL大模型进行微调,以实现对人脸情感的高效识别。通过数据准备、模型配置、训练和评估等步骤,我们成功地构建了一个高效的人脸情感识别模型。在微调之前,需要配置模型参数和数据集路径。注意:上述代码中,加载模型和预测的部分被省略了,实际应用中需要使用合适的代码加载微调后的模型,并进行预测。注意:上述代码中,标签的读取部分被省略了,实际应用中需要从labels.csv等文件中读取标签信息,并添加到labels列表中。原创 2025-02-20 15:36:03 · 1129 阅读 · 0 评论