Chat With RTX安装及中文大语言模型配置与使用体验

NvidiaChatwithRTX：本地AI应用的隐私与性能提升

原创

已于 2024-06-04 16:10:33 修改 · 7.5k 阅读

43 ·

CC 4.0 BY-SA版权

文章标签：

#语言模型 #人工智能 #自然语言处理 #AIGC

于 2024-03-27 12:02:40 首次发布

一、 Chat with RTX概述

Chat with RTX是Nvidia发布的一款Demo应用程序，以此可以个性化 GPT 大语言模型 (LLM)，使其连接到您自己的内容（文档、笔记、视频或其他数据），快速获得上下文相关答案。由于 Chat with RTX 全部在 Windows RTX PC 或工作站上本地运行，因此可以获得快速、安全的结果。

1. Chat with RTX 的优势

本地处理：隐私和性能的飞跃
Chat with RTX 的最重要优势之一是其本地处理功能。它利用 Nvidia RTX GPU 的强大计算能力，直接在用户的 PC 上运行，在 AI 交互中提供前所未有的速度和响应能力。这种本地执行模型可确保敏感数据保留在用户设备的范围内，从而提供云上人工智能服务无法比拟的隐私和数据安全级别。

高级内容分析：深入内部
Chat with RTX 包括.txt、.pdf、.doc/.docx 和 .xml 在内的多种文件格式以及 YouTube 视频。它采用复杂的人工智能模型来消化大量信息，提取相关见解并以极高的准确性总结复杂的数据。 Chat with RTX 提供的深度分析超出了单纯的关键字匹配；它理解上下文，提取相关信息，并以连贯、简洁的方式呈现它。

2. Chat with RTX 的核心技术

Chat with RTX 功能的核心基于 Mistral / Llama 2 等先进的 AI 模型，借助检索增强生成 (RAG)、NVIDIA TensorRT-LLM 软件及 NVIDIA RTX 加速技术，使模型与 Nvidia Tensor 核心的计算能力相结合，可以促进快速、准确的数据查询，将生成式 AI 功能引入由NVIDIA 赋能的本地 Windows PC。硬件和软件之间的这种协同不仅体现了NVIDIA 致力于突破人工智能技术界限的承诺，而且还让我们得以一睹个人计算的未来，其中人工智能在提高生产力和实现新形式的创造力方面发挥着核心作用。

二、 Chat with RTX安装

1. 软件安装及注意事项

根据官网软件运行系统需求：

本人电脑是GPU是RTX 4070Ti 12G，满足需求，可以体验！从官网Build a Custom LLM with ChatRTX https://www.nvidia.com/en-us/ai-on-rtx/chatrtx/下载安装包NVIDIA_ChatWithRTX_Demo.zip，解压得到下图所示文件列表：

点击setup安装：

首先出现Software license agreement 页

然后是安装选项页（下面的图和自己实际的不完全匹配，当时不知道啥原因，Llama2 13B INT4的选项是灰的，装不了，想想反正还有Mistral 7B INT4可以用，就先继续了。当然后面自己进行了定制和补救）

最低0.47元/天解锁文章

6 条评论

weixin_46365205 2024.05.16
是把这句话enable_context_fmha加在python build.py••••3900后面再编译一次吗

weixin_46365205 2024.05.16
在线等大佬指导[face]emoji:005.png[/face]

weixin_46365205 2024.05.16
enable_context_fmha这句话使用的步骤和环境是什么呀，直接在报错的截图后面运行enable_context_fmha这句话吗？
- weixin_46365205回复sheex2012 2024.05.28
  按照帖子步骤执行到语句：python build.py -m chatglm3_6b_32k --model_dir c:\\rtxmodel\\chatglm3_6b_32k --output_dir trt_engines/chatglm3_6b-32k/fp16/1-gpu --use_weight_only --weight_only_precision int4 --max_input_len 3900后报错2: [virtualMemoryBuffer.cpp::nvinfer1::StdVirtualMemoryBufferImpl::resizePhysical::140] Error Code 2: OutOfMemory (no further information)，按照贴子的步骤是增加选项--enable_context_fmha，但是结合您发的命令行全文来看，我还是不太明白应该怎么改，希望能得到您更细致的帮助，感谢
- sheex2012回复weixin_46365205 2024.05.20
  这是命令行全文 python build.py --model_dir C:\2024\Software\NVIDIA_ChatWithRTX_Demo\llama\llama13_hf --quant_ckpt_path C:\2024\Software\NVIDIA_ChatWithRTX_Demo\llama\llama13_int4_awq_weights\llama_tp1_rank0.npz --dtype float16 --remove_input_padding --use_gpt_attention_plugin float16 --enable_context_fmha --use_gemm_plugin float16 --use_weight_only --weight_only_precision int4_awq --per_group --output_dir C:\2024\llama13_int4_engine --world_size 1 --tp_size 1 --parallel_build --max_input_len 3900 --max_batch_size 1 --max_output_len 1024