- 博客(5)
- 收藏
- 关注
原创 Datawhale AI夏令营 第四期 多模态大模型数据合成 Task1:basline
脚本中的注释提供了足够的信息来理解每部分的作用。这部分定义了训练参数,包括预训练和微调的批处理大小、梯度累积步数和数据加载器的工作线程数。使用DeepSpeed训练模型,传递了多个参数,包括模型路径、数据路径、输出目录等。这个Bash脚本是用于深度学习模型训练和推理的自动化脚本。这些是实验的元信息,包括实验名称和预训练数据集的路径。执行推理脚本,用于评估模型在特定基准测试上的性能。打印完成信息,包括训练检查点和推理结果的存储位置。命令来训练模型,包括预训练和微调两个阶段。是预训练阶段使用的数据集的路径,
2024-08-15 22:02:36
475
原创 Datawhale AI夏令营 第四期 大模型应用开发 Task1:案例:智能编程助手
整体来看,这段代码的作用是初始化会话状态中的聊天消息列表(如果它尚不存在),然后在聊天界面上显示所有存储在会话状态中的消息。在Streamlit应用中,st.title函数通常用来设置应用的主标题,它在页面的顶部显示,并且通常是用户加载页面后看到的第一个元素。整体来看,这段代码的作用是定义了一个函数来加载预训练的NLP模型和分词器,并通过Streamlit的缓存机制来优化性能。整体来看,这段代码实现了一个聊天机器人的基本功能:接收用户输入,使用预训练模型生成响应,并将用户输入和模型响应显示在聊天界面上。
2024-08-11 22:11:51
1009
原创 Datawhale AI夏令营 第三期 逻辑推理 Task3:微调方案
!!!!!!!!!!!!!!这段代码是一系列使用pip命令安装 Python 包的命令。这些包主要用于机器学习和自然语言处理(NLP)任务。:ModelScope 是一个开源的模型库,提供预训练模型和模型训练工具,方便用户进行模型开发和部署。:Transformers 是一个用于自然语言处理(NLP)任务的库,提供了大量预训练模型,如 BERT、GPT 等。:Streamlit 是一个用于创建数据应用的框架,可以快速将数据科学代码转换为 Web 应用。
2024-08-02 23:29:44
1187
原创 Datawhale AI夏令营 第三期 逻辑推理 Task2:basline精读
大语言模型(英文:Large Language Model,缩写LLM),也称大型语言模型,是一种人工智能模型,旨在理解和生成人类语言。通常,大语言模型 (LLM) 指包含数十亿(Billion或更多)参数的语言模型,这些模型在大量的文本数据上进行训练,例如国外的有GPT-3 、GPT-4、PaLM 、Galactica 和 LLaMA 等,国内的有ChatGLM、文心一言、通义千问、讯飞星火等。
2024-07-30 22:31:26
463
原创 Datawhale AI夏令营 第三期 逻辑推理 Task1:开营
Datawhale 2024AI夏令营 逻辑推理 Task1:开营跑通 baseline,拿下第一个分数,下面介绍basline
2024-07-28 23:49:10
1131
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅