fzyz123-优快云博客

原创 DeepSeek-V3 技术报告解读

DeepSeek-V3 是当前。

2025-03-09 22:32:07 1021

原创【书生大模型实战营】玩转HF/魔搭/魔乐社区-L0G4000

Hugging Face 是一个专注于自然语言处理（NLP）和机器学习领域的开源平台，也是全球最大的 AI 社区之一。作为 NLP 领域的领军者，Hugging Face 不仅提供了丰富的预训练模型、高质量的数据集以及强大的开发工具，还始终致力于推动 AI 技术的民主化，让每个人都能轻松获取并使用最先进的 AI 技术。Hugging Face 的起源可以追溯到 2016 年，最初是一家专注于聊天机器人应用的初创公司。然而，随着开源库。

2025-02-23 21:36:52 777

原创我的创作纪念日-256天

过完年要准备上班了，希望工作顺利。后来开始转岗AI，从头开始学习CS，学习人工智能，学习编程，也关注了一些了博主，看了一些博主的经历，就开始记录自己的学习过程，记录自己的思考，希望自己有很多的活人粉丝，非僵尸粉。开源是一种奉献，自己在学习的过程中，接受了很多大佬的奉献，那同样也希望为开源社区奉献自己的一份力量，一个人可以走得很快，但一群人能够走得更远。

2025-01-20 19:08:50 158

原创【书生大模型实战营】Git 基础知识-L0G3000

Git基础知识。【书生大模型实战营】Git 基础知识-L0G3000

2025-01-18 18:44:00 1381 1

原创【书生大模型实战营】Python 基础知识-L0G2000

本文是书生大模型实战营系列的第2篇文章，是入门岛的第二个任务，主题为：Python基础知识。

2024-12-06 22:28:40 601

原创【书生大模型实战营】Linux 基础知识-L0G1000

书生大模型实战营，入门岛，Linux基础

2024-12-06 16:45:55 995

原创从零入门AI篡改图片检测（金融场景）#Datawhale十月组队学习

本次比赛包含攻防两大赛道，分别聚焦大模型自身安全和大模型生成内容的防伪检测，涉及信用成长、凭证审核、商家入驻、智能助理等多个业务场景，覆盖机器学习、图像处理与计算机视觉、数据处理等多个算法领域，旨在聚合行业及学界力量共同守护AI及大模型的安全，共同推动AI安全可信技术的发展。感觉这种比赛越来越卷，数据越来越大，对机器的要求越来越高，那么这里面应该是有很多算法工程化的小技巧的，应该是有很多优化的tricks的，这些需要通过不断的实践来提高、积累。这里面其实还是存在一些问题的，我查看训练集标签发现的。

2024-10-15 11:20:29 1055

原创手搓一个Eval#Datawhale组队学习大模型任务Task4

Hugging Face 是一个非常流行的开源社区，专注于自然语言处理（NLP）任务，尤其是基于 Transformer 架构的深度学习模型。它提供了一系列工具和服务，包括模型库、数据集库以及社区支持等。通常是指用于评估大型语言模型性能的工具或平台。这些系统旨在衡量模型在不同任务上的表现，包括但不限于自然语言处理（NLP）任务，如文本生成、问答、翻译等。uning，用于实现和管理微调（fine-tuning）预训练语言模型的方法。关于评价指标，精确率（查准），召回率（查全），F1分数。

2024-10-01 22:42:39 712

原创手搓一个Agent#Datawhale 组队学习Task3

书接上回，首先回顾一下Task2的一些补充：Task2主要任务是从零预训练一个tiny-llama模型，熟悉一下Llama的模型架构和流程。然后测试一下模型的效果。总的来说，因为某些未知的原因，loss一直没有降下去，导致最终效果一般般。

2024-09-27 22:37:30 835

原创从零预训练一个tiny-llama#Datawhale组队学习Task2

Q：什么是Flash Attention？A：Flash Attention 是一种用于加速Transformer模型中自注意力（self-attention）机制的优化技术。传统自注意力机制的时间复杂度和内存消耗均为 O(N2)，其中 N是序列长度。Flash Attention 通过优化注意力计算的方式，能够在保持计算精度的同时显著降低计算成本，特别是内存消耗。Q：Flash Attention的机制是什么？如何实现这种优化的？

2024-09-23 21:30:29 1289

原创从零开始手搓Transformer#Datawhale组队学习Task1#

动手学深度学习PyTorch》一些简介：Transformer 是一种在自然语言处理（NLP）领域具有里程碑意义的模型架构，首次在2017年的论文《Attention is All You Need》中提出。该架构摒弃了传统的递归神经网络（RNN）和卷积神经网络（CNN），完全依赖于自注意力机制（Self-Attention Mechanism），使得模型能够并行处理序列数据，大幅提升了训练效率。

2024-09-19 22:16:20 1233

原创 #Datawhale X 李宏毅苹果书 AI夏令营#2.实践方法论

比较合理选择模型的方法是把训练的数据分成两半，一部分称为训练集（training set），一部分是验证集（validation set）。模型复杂度的平衡：可以选一个中庸的模型，不是太复杂的，也不是太简单的，刚刚好可以在训练集上损失最低，测试损失最低。一般只会用到梯度下降进行优化，这种优化的方法很多的问题。为什么会有过拟合这样的情况呢？模型偏差可能会影响模型训练。

2024-08-30 15:16:17 736

原创 #Datawhale X 李宏毅苹果书 AI夏令营#1.2了解线性模型

图1的这条红色曲线，我们可以把它看作是由下面几段蓝色曲线叠加得到的，如果不理解的话，那么换个说法，这们可以把红色曲线看到是由自身的三段折线叠加组合而成。线性模型只能模拟简单的线性关系，无法模拟复杂的非线性关系，然后现实中的问题通常是复杂的。：在训练数据和测试数据上的结果是不一致的，训练数据上效果很好，在测试数据（没看过的数据）上，效果变差，这种情况称为过拟合（overfitting）。随着我们使用数据的增加，训练损失和验证损失都在减少，到一定程度后，验证损失不在减小，表明仅靠增加数据，模型已达到上限。

2024-08-29 20:38:31 1062

原创 OpenCompass 评测 InternLM-1.8B 实践 #书生浦语大模型实战营

OpenCompass 是一个用于评测大模型性能的开源平台，旨在为大语言模型、多模态模型等提供一站式的评测服务。

2024-08-28 18:26:41 1059

原创 #Datawhale X 李宏毅苹果书 AI夏令营#3.1&3.2局部极小值与鞍点&批量和动量

本章介绍深度学习常见的概念，主要包括3.1局部极小值与鞍点；3.2批量和动量。

2024-08-27 21:59:18 1003

原创 #Datawhale X 李宏毅苹果书 AI夏令营#1.1机器学习基础案例学习

机器学习算法是一种能够从数据中学习的算法。专业的定义：“对于某类任务 T 和性能度量 P，一个计算机程序被认为可以从经验 E 中学习是指，通过经验 E 改进后，它在任务 T 上由性能度量 P 衡量的性能有所提升。”简单概括一下就是：利用经验改善系统自身的性能。我们回到苹果书，苹果书对这个专业的定义做了简化，并使用了函数来进行类比。“具体来讲，机器学习就是让机器具备找一个函数的能力。机器具备找函数的能力以后，它可以做很多事。

2024-08-27 17:18:41 1173

原创 XTuner微调个人小助手认知 #书生浦语大模型实战营#

本次的任务是使用 XTuner 微调 InternLM2-Chat-1.8B 实现自己的小助手认知，从而让模型能够个性化的回复，让模型知道他是我们的小助手，在实战营帮我们完成XTuner微调个人小助手认知的任务。并截图打卡。微调前，模型的回复比较通用。微调后，模型可以有个性化的回复啦。

2024-08-26 21:19:39 1307

原创 llamaindex+Internlm2 RAG实践 #书生谱语大模型实战营#

NLTK(Natural Language Toolkit) 是一个广泛使用的 Python 库，用于处理自然语言数据。它是自然语言处理（NLP）领域中最受欢迎的工具之一，被广泛应用于学术研究、教育以及工业界的各种项目中。NLTK 提供了一系列用于文本处理的工具和资源，包括分词、词性标注、命名实体识别、语法分析等。主要特点：1）丰富的数据集和语料库；2）广泛的文本处理工具；3）教育和研究用途；4）社区支持。

2024-08-24 20:45:30 1125

原创 LangGPT结构化提示词编写实践 #书生大模型实战营#

近期相关研究发现，LLM在对比浮点数字时表现不佳，经验证，internlm2-chat-1.8b (internlm2-chat-7b)也存在这一问题，例如认为13.8<13.11。：利用LangGPT优化提示词，使LLM输出正确结果。

2024-08-23 22:33:09 1025

原创 #Datawhale AI夏令营第4期#多模态大模型Task3

Data-Juicer 是一个多模态数据处理系统，旨在提升数据质量，使其更适合用于大语言模型（LLMs）。系统提供了一系列用于数据处理的强大工具，包括 80 多个核心操作符、20 多个可重用配置和丰富的工具包。Data-Juicer 支持多种数据格式和多模态数据处理（如文本、图像、音频、视频），并且可以灵活扩展以满足特定需求。Data-Juicer的核心就是算子，通过算子的组合，我们可以实现数据的清洗。Data-Juicer中的算子分为以下 5 种类型。Formatter：发现、加载、规范化原始数据。

2024-08-17 18:04:30 793

原创 #Datawhale AI夏令营第4期#多模态大模型Task2

在DJ中，数据沙盒实验室为用户提供了持续生产数据菜谱的最佳实践，其具有低开销、可迁移、有指导性等特点，用户在沙盒中基于一些小规模数据集、模型对数据菜谱进行快速实验、迭代、优化，再迁移到更大尺度上，大规模生产高质量数据以服务大模型。用户在沙盒中，除了DJ基础的数据优化与数据菜谱微调功能外，还可以便捷地使用数据洞察与分析、沙盒模型训练与评测、基于数据和模型反馈优化数据菜谱等可配置组件，共同组成完整的一站式数据-模型研发流水线。进行数据合成与清洗，产出一份基于种子数据集的更高质量、更多样性的数据集，并在。

2024-08-15 21:57:13 747

原创 #Datawhale AI夏令营第4期#AIGC方向文生图 Task2

Task2任务：对baseline的代码有一个更加细致的理解，然后学习如何借助AI来提升我们的自学习能力.

2024-08-14 11:46:58 1509

原创 #Datawhale AI 夏令营第4期#多模态大模型Task1

本次任务：天池Better Synth多模态大模型数据合成挑战赛。在当下大数据、大模型时代，大数据是驱动大模型的能源。当前大模型的训练数据绝大部分来源于互联网上的信息，但随着大模型尺寸与性能逐渐提升，互联网上的海量数据也将逐渐使用殆尽，并且对于多模态大模型来说，这些海量资源在获取后，也需要极大的额外处理和人力标注才可以达到可用于训练大模型的水准。因此，如何借助已有的强大的大模型，在有限的计算资源下为新的模型训练流程高效合成优质的训练数据成为了一个新兴的值得关注的问题。

2024-08-11 21:44:17 610

原创 #Datawhale AI夏令营第4期#AIGC 文生图 Task1

文生图（Text-to-Image Generation）的历史可以追溯到人工智能领域开始尝试使用深度学习技术来生成图像。早期探索：GAN（生成对抗网络）的提出标志着生成模型的一个重大突破。它由两个神经网络组成：生成器（Generator）和判别器（Discriminator）。生成器的任务是生成看起来真实的图像，而判别器的任务是区分真实图像和生成图像。发展阶段：随着技术的成熟和进步，出现了更多的GAN的变体，并结合了注意力机制，提高了文本到图像生成的质量。

2024-08-11 19:31:56 833

原创 8G 显存玩转书生大模型 Demo #书生大模型实战营#

（TimM）是一个 PyTorch 的模型库，它提供了大量的预训练图像模型，包括经典的 CNN（卷积神经网络）架构以及最新的研究进展。很好的理解了我的问题，默认生成了一段中文的描述，对图片的描述比之前的InternLM-XComposer2-VL-1.8B效果要好。InternVL2 是上海人工智能实验室推出的新一代视觉-语言多模态大模型，是首个综合性能媲美国际闭源商业模型的开源多模态大模型。LMDeploy 是一个用于快速部署语言模型的服务框架，它可以帮助你轻松地将大型语言模型部署到各种环境中。

2024-08-09 20:31:38 1030

fzyz123的博客