huggingface
文章平均质量分 73
夫唯不争,故无尤也
嵌入式,C语言
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
三大AI部署框架对比:本地权重与多模型协作实战
本文对比了三种本地大模型部署框架:Ollama、HuggingFace Transformers和vLLM。Ollama适合快速本地部署和隐私敏感场景,HuggingFace Transformers灵活适用于模型研发和原型阶段,而vLLM则是面向高吞吐生产环境优化的服务框架。对于多模型协作项目,建议初期使用Ollama快速启动,中期过渡到vLLM服务层,配合调度框架(如LangGraph)和状态存储(PostgreSQL)构建完整架构。开发阶段可利用HuggingFace进行模型探索,生产部署则优先考虑资原创 2025-11-01 20:06:00 · 930 阅读 · 0 评论 -
huggingface中加载的模型在电脑中的存储位置
摘要:HuggingFace的transformers库默认将模型文件下载到本地缓存目录(Linux/macOS为~/.cache/huggingface/hub,Windows为C:\Users<用户名>.cache\huggingface\hub)。该目录包含模型权重、配置文件和压缩数据,可通过环境变量HF_HOME或Python代码修改默认存储路径。原创 2025-09-22 23:41:55 · 811 阅读 · 0 评论 -
如何调用huggingface模型中Qwen3-0.6B模型搭建本地大模型助手(单次对话与多轮对话版),并且单样本调用和batch方式调用的对比
本文介绍了如何使用HuggingFace中的Qwen3-0.6B模型构建对话系统。主要内容包括:1)单次调用模型的方法,包括模型导入、提示词模板构建、tokenize处理和结果解码;2)构建支持多轮对话的QwenChatbot类,实现对话历史记录和响应生成;3)批量处理方法,通过设置batch_size提高处理效率,包括批量消息构建、模板转换、模型生成和结果解析。特别说明了在批量处理时需要使用padding和truncation参数处理不同长度文本,以及如何从输出中提取生成内容。原创 2025-09-22 23:37:22 · 1689 阅读 · 0 评论 -
在使用huggingface时,AutoTokenizer / AutoModel 中可加载的模型和需要单独引入库的模型的区别
文章摘要:HuggingFace模型加载方式分为两种:1)可直接用AutoTokenizer/AutoModel加载的官方支持模型(如BERT、GPT-2等),其config.json包含Transformers识别的model_type;2)需单独安装第三方库的非官方模型(如SentenceTransformers、多模态模型等)。判断方法:查看config.json中的model_type是否在Transformers官方文档的模型列表中。官方会逐步合并流行模型到主库,如LLaMA从需要第三方支持到被官原创 2025-09-21 20:25:37 · 795 阅读 · 0 评论
分享