
大模型
文章平均质量分 65
大模型实战
微雨盈萍cbb
一名算法工程师的简介
展开
-
BERT--自然语言处理的革命性进展
BERT的提出是深度学习在自然语言处理领域的一次革命,它通过双向的Transformer架构和预训练-微调的方式,在多个NLP任务上都取得了显著的性能提升。尽管BERT仍然面临一些挑战,如计算资源的消耗和对长文本的处理,但它为NLP领域的研究人员和工程师提供了一个强大的工具,推动了整个行业的发展。随着BERT模型的优化与变种(如RoBERTa、DistilBERT等)不断涌现,BERT将在未来的语言理解任务中继续扮演重要角色,成为推动人工智能进步的重要力量。原创 2024-12-10 17:20:01 · 702 阅读 · 0 评论 -
vLLM简介
vLLM是一款高性能的LLM推理引擎,它针对大语言模型的推理任务进行了优化,特别适合处理并行性和大规模部署的需求。其设计核心是通过创新的“动态批处理”和“连续缓存”来最大化GPU的利用率,同时减少内存占用与数据传输开销。这些技术突破让vLLM在推理速度和硬件资源消耗之间找到了平衡,使得它成为大规模、多用户并发场景下的一种理想选择。原创 2024-10-18 16:42:07 · 1028 阅读 · 0 评论 -
Llama3.2
Meta的Llama 3.2无疑是人工智能领域的一项重大成果,其开放、可定制、多模态和轻量化等特点使其在各种应用场景中展现出巨大的潜力。随着技术的不断迭代和应用场景的拓展,我们有理由相信,未来的AI将更加智能化、人性化,为我们的生活和工作带来更多便利和惊喜。让我们共同期待Llama 3.2在未来的发展中创造更多的可能!原创 2024-09-27 14:07:51 · 537 阅读 · 0 评论 -
LLaMa-Factory入门教程
LLaMa-Factory是一个基于人工智能技术的开源项目,专为大型语言模型(LLMs)的微调而设计。它提供了丰富的工具和接口,使得用户能够轻松地对预训练的模型进行定制化的训练和调整,以适应特定的应用场景。原创 2024-09-23 09:50:47 · 1820 阅读 · 0 评论 -
了解Llama-factory
Llama-factory作为大型语言模型微调的创新平台,为开发者和小型企业提供了前所未有的便捷性和灵活性。它不仅降低了LLM微调的技术门槛和成本,还通过高度定制化的能力帮助用户实现了更好的模型性能和应用效果。随着LLMs的不断发展和应用场景的不断拓展,我们有理由相信Llama-factory将在未来发挥更加重要的作用。原创 2024-09-23 09:48:15 · 672 阅读 · 0 评论 -
大模型微调
近年来,随着深度学习技术的飞速发展,大型预训练模型(如BERT、GPT系列等)在自然语言处理(NLP)领域取得了巨大成功。这些模型通过在大规模语料库上进行无监督训练,学习到了丰富的语言知识和通用表示能力。然而,在实际应用中,我们往往需要模型针对特定任务或数据集进行更精细的调整,这时大模型微调技术就显得尤为重要。本文将深入探讨大模型微调的基本概念、流程、挑战及应用前景。原创 2024-09-23 09:45:44 · 712 阅读 · 0 评论 -
大模型介绍
大模型通常指的是参数规模极大的深度学习模型,例如近年来流行的GPT系列、BERT、T5等。大模型的崛起得益于硬件计算能力的提升以及大规模数据的可用性,特别是在云计算和分布式计算技术的发展下,这类模型的训练和推理得以实现。下面是关于大模型的详细介绍。随着硬件技术的进步和新的训练方法的出现,大模型的发展前景广阔。广泛的适用性:同一个大模型可以通过微调适应不同的任务,从而节省了为每个任务单独训练模型的时间和资源。持续改进:随着更多数据的引入和模型架构的优化,大模型的性能可以持续提升。原创 2024-08-27 16:55:36 · 340 阅读 · 0 评论 -
paddla模型转gguf
在使用ollama配置本地模型时,只支持gguf格式的模型,所以我们首先需要把自己的模型转化为bin格式,本文为paddle,onnx,pytorch格式的模型提供说明,safetensors格式比较简单请参考官方文档,或其它教程。paddle需要在训练结束后将模型保存为onnx格式。原创 2024-07-11 13:52:59 · 1102 阅读 · 0 评论 -
大模型相关介绍
图片转存失败,想看这篇文章的小伙伴可以去下载pdf 版本。类:选择模型中的部分层比如最后几层、或偏置项进行微调。的核心是通过优化一个特定的目标函数来进行策略更新,生成不受欢迎的完成的可能性。在预训练模型的每一层之间添加一个小的参数适配器(类:在预训练模型基础上增加额外的参数或者网络层。模块是由一小部分参数组成的额外的前馈神经网络。个偏好对都包含一个提示和两种可能的完成方式。高其在特定任务或领域上的性能。它的工作原理是创建人类偏好对的数据集。用的子空间中去寻找参数进行微调。世界应用中的表现也令人惊叹。原创 2024-06-18 13:31:22 · 462 阅读 · 0 评论 -
大模型三种架构
代表的有openai的GPT,meta的Llama。在Decoder-Only模型架构中,模型只包含一个解码器,没有编码器。优点:专注于生成部分,能够生成连贯、有创造性的文本,灵活性高。代表的有Google的T5模型,清华的GLM。优点:灵活强大:能够理解复杂输入并生成相关输出。缺点:架构复杂:相比单一的Encoder或Decoder,它更复杂。代表的有google的bert模型。优点:强大的理解能力:能够有效处理和理解输入数据。缺点:理解能力较差,不擅长理解复杂的输入。适用场景:情感分析,文本分类任务。原创 2024-06-12 14:54:19 · 391 阅读 · 1 评论 -
Transformer模型代码(详细注释,适合新手)
本文提供了transformer代码附带详细注释,要注意本文的transformer并非传统的encoder-decoder结构的,而是主流的gpt结构(decoder-only),不了解decoder-only的同学,可以参考我的另一篇文章,链接放在最后。我过几天会出一个介绍gpt模型结构的的文章,欢迎大家前来讨论。原创 2024-06-13 10:35:50 · 3403 阅读 · 1 评论 -
linux常用指令(不断更新中)
使用时可以输入前几个字符,点击TAB键,无需手动输入后续字符。rm -f 删除文件,-r代表递归删除,-rf强制删除目录了。mkdir data即可新建data目录。docker ps –a查询所有容器状态。docker start +名字启动容器。展示路径下所有文件以及子目录。docker rm删除容器。按下esc退出当前模式。打开文本文件进行编辑。输入i进入可编辑模式。6.创建目录mkdir。输入:wq保存并退出。原创 2024-06-18 11:22:35 · 295 阅读 · 1 评论