
AI
文章平均质量分 88
AI
liuzhenghua66
这个作者很懒,什么都没留下…
展开
-
vLLM结构化输出(Guided Decoding)
语言模型的输出由模型的推理结果(logits)通过采样或其他策略生成。在结构化生成场景中,实例化一个bitmask,对模型的生成过程进行约束,确保输出符合预定义的语法规则(如 JSON 格式或特定语言的 EBNF 语法)。原创 2025-01-02 19:10:10 · 2490 阅读 · 0 评论 -
使用LlamaFactory进行模型微调
论文地址:https://arxiv.org/pdf/2403.13372仓库地址:https://github.com/hiyouga/LLaMA-Factory/tree/main。原创 2024-10-11 17:47:21 · 1762 阅读 · 0 评论 -
Qwen-Agent
一个智能体用于理解包含百万字词的文档,使用了支持8k上下文的模型,但效果超过RAG和长序列原生模型。智能体包含三个复杂度级别,每一层都建立在前一层的基础上。官方介绍:https://qwenlm.github.io/zh/blog/qwen-agent-2405/代码库:https://github.com/QwenLM/Qwen-Agent。原创 2024-07-23 10:45:24 · 1149 阅读 · 0 评论 -
text/event-stream
GPT火了之后,一种新的Http MediaType慢慢火了起来,它就是。这几种类型本质上都是客户端与服务端打开了一个长连接,服务端可以多次写入一部分数据给客户端,客户端可以多次读取,直到全部读取完成。由于ChatGPT的特性,如果需要生成的token较多,等它全部生成完成将消耗较多的时间,但是如果你将它生成过程中的数据源源不断地展示给用户,那么用户端的体验也不会差(类似于在线播放视频,不需要把整个视频下载完成才能播放)支持服务端分多次往客户端写内容。原创 2023-10-07 22:12:10 · 12589 阅读 · 0 评论 -
LLM function call
在大模型领域,尤其是在自然语言处理(NLP)和人工智能(AI)应用中,function call 是一种非常重要的技术手段。数据查询和处理 AI模型可以调用数据库查询函数,以获取所需的数据。例如,在客户服务应用中,模型可以调用函数从客户数据库中提取客户信息执行计算或分析 在需要复杂计算或数据分析的场景中,模型可以调用外部的计算函数。例如,金融分析系统中,模型可以调用函数进行风险评估或收益预测。第三方API集成 模型可以通过function call集成第三方API服务。原创 2024-06-19 11:53:44 · 2016 阅读 · 0 评论 -
vllm 使用FP8运行模型
vLLM 支持使用硬件加速在 GPU 上进行 FP8(8 位浮点)计算,例如 Nvidia H100 和 AMD MI300x。目前,仅支持 Hopper 和 Ada Lovelace GPU。使用 FP8 对模型进行量化可以将模型内存需求减少 2 倍,并在对准确性影响极小的情况下将吞吐量提高最多 1.6 倍。E4M3:由1个符号位、4个指数位和3个位的尾数组成。它可以存储的值范围是 +/-448 和 nan。E5M2:由1个符号位、5个指数位和2个位的尾数组成。原创 2024-06-12 19:48:29 · 2109 阅读 · 0 评论 -
LLM压测
大型语言模型(LLM)的压力测试(压测)是评估模型在高负载条件下性能和稳定性的关键方法。压测的目标是模拟实际使用场景中的高并发请求,检测系统的极限、潜在瓶颈和稳定性问题,以确保模型在生产环境中能够稳定高效地运行。原创 2024-05-30 19:30:54 · 5458 阅读 · 3 评论 -
如何运行大模型
要想了解一个模型的效果,对模型进行一些评测,或去评估是否能解决业务问题时,首要任务是如何将模型跑起来。目前有较多方式运行模型,提供client或者http能力。原创 2024-05-27 20:13:51 · 1079 阅读 · 0 评论 -
vllm引擎
LLM有望从根本上改变我们在所有行业使用人工智能的方式。然而,部署这些模型具有挑战性,即使在昂贵的硬件上,速度也可能出奇地慢。vLLM`是一个用于快速 LLM 推理和服务的开源库。vLLM 利用,一个新的注意力算法,可以有效管理注意力键和值。配备 PagedAttention 的 vLLM 重新定义了 LLM 服务的最新技术水平:它的吞吐量比 HuggingFace Transformers 高出 24 倍,且无需更改任何模型架构。原创 2024-04-19 09:04:09 · 2116 阅读 · 0 评论 -
多张卡部署一个codellama实例
在深度学习中,模型通常由多个层(或称为模块)组成,每个层执行特定的功能,并且它们以一种有序的方式连接在一起,构成了整个模型。不同类型的模型可能由不同种类的层组成,每个层都有其特定的功能和作用。:注意力层用于处理序列数据或序列-序列数据,能够动态地计算输入序列中各个位置的重要性,并将注意力权重应用于相应的位置。:输出层负责生成模型的最终输出,通常根据任务的不同,输出层可能采用不同的激活函数和损失函数。:全连接层通常位于神经网络的最后几层,用于将模型提取的特征映射到最终的输出空间。原创 2024-02-18 18:15:04 · 2230 阅读 · 0 评论 -
Transformers
提供 API 和工具来轻松下载和训练最先进的预训练模型, 节省从头开始训练模型所需的时间和资源。自然语言处理:文本分类、命名实体识别、问答、语言建模、摘要、翻译、多项选择和文本生成。计算机视觉:图像分类、对象检测和分割。音频:自动语音识别和音频分类。多模态:表格问答、光学字符识别、扫描文档信息提取、视频分类和视觉问答。张量 (Tensor)在机器学习和深度学习中,张量通常用于表示和处理多维数组中的数据。张量的阶表示它的维度或轴的数量。标量是零阶张量,向量是一阶张量,矩阵是二阶张量,以此类推。原创 2024-02-07 13:49:40 · 1396 阅读 · 0 评论 -
向量库与嵌入模型
世界上大约超过百分之八十的数据都是非结构化数据,例如:图像、音视频、自然语言等,这些模型不遵循预定义的模式或组织方式,可以使用各种人工智能 (AI) 和机器学习 (ML) 模型转换为向量。原创 2024-01-24 13:56:52 · 1813 阅读 · 0 评论 -
机器学习入门
是一个AI社区,类似于github的地位。它开源了许多机器学习需要的基础组件如:Transformers, Tokenizers等。Datasets : 数据集Models : 预训练好的模型Docs : 各种文档。原创 2023-11-24 22:53:52 · 1241 阅读 · 0 评论