
ChatGPT
文章平均质量分 93
dzysunshine
爱打篮球,爱跑步,爱学算法
展开
-
BloombergGPT—金融领域大模型
在金融领域任务上,BloombergGPT综合表现最好;在通用任务上,BloombergGPT的综合得分优于相同参数量级的其他模型,并且在某些任务上的得分要高于参数量更大的模型。这都说明,开发金融专用的大语言模型在金融领域取得好效果的同时,并没有以牺牲模型通用能力为代价。原创 2023-12-27 22:37:30 · 5530 阅读 · 0 评论 -
HuatuoGPT模型介绍
HuatuoGPT(华佗GPT)是香港中文大学(深圳)和深圳市大数据研究院的王本友教授团队训练并开源了一个新的医疗大模型,以使语言模型具备像医生一样的诊断能力和提供有用信息的能力。HuatuoGPT的核心是在监督微调阶段利用来自ChatGPT的提取数据和来自医生的真实世界数据。ChatGPT的回答虽然具有流畅性和全面性,但它在一些方面不能像医生一样表现,例如在综合诊断方面。原创 2023-12-19 13:12:49 · 2568 阅读 · 0 评论 -
DISC-MedLLM—中文医疗健康助手
DISC-MedLLM 是一个专门针对医疗健康对话式场景而设计的医疗领域大模型,它可以满足您的各种医疗保健需求,包括疾病问诊和治疗方案咨询等,为您提供高质量的健康支持服务。项目由复旦大学数据智能与社会计算实验室 (Fudan-DISC)开发并开源。来试用模型。效果展示用户在感到身体不适时,可以向模型问诊,描述自身症状,模型会给出可能的病因、推荐的治疗方案等作为参考,在信息缺乏时会主动追问症状的详细描述。比如:出现腹泻和发烧的症状。可能得了什么病?原创 2023-12-15 17:05:13 · 1918 阅读 · 0 评论 -
ChatGLM3-6B模型介绍及微调
对 ChatGLM3-6B-Base 的测试中,BBH 采用 3-shot 测试,需要推理的 GSM8K、MATH 采用 0-shot CoT 测试,MBPP 采用 0-shot 生成后运行测例计算 Pass@1 ,其他选择题类型数据集均采用 0-shot 测试。官方对 Base版提供的是基于Lora的微调。不同的部署方式,第一种只有Chat 对话模式,第二种将对话模式,工具模型和代码解释器模型进行了集成。转换后,context是对话的上文,也就是模型的输入,target是对话的下文,也就是模型的输出。原创 2023-12-14 15:10:51 · 20622 阅读 · 16 评论 -
基于Langchain-Chatchat的知识库问答系统
Langchain-Chatchat项目是一种利于langchain思想实现的基于本地知识库的问答应用,是一个可以实现完全本地化推理的知识库增强方案,具有重点解决数据安全保护,私域化部署的企业痛点的能力。本文主要对构建一个基于Langchain-Chatchat的知识库问答系统,可能存在的问题以及相关改进方案的说明。使用默认配置时,虽然上传文档可以实现基础的问答,但效果并不是最好的,通常需要考虑以下几点原因。会出现检索出的部分结果与问题相关性不大的情况,甚至还会出现对某些问题检索不到的情况。原创 2023-11-14 18:14:53 · 3461 阅读 · 0 评论 -
Text embedding 模型总结
目前,随着的火热,除了层出不穷的大模型外,因为检索的能力会很大程度影响最终的问答效果,文本的嵌入模型也是大家比较关注的。本文主要介绍效果较好的几种文本嵌入模型。原创 2023-10-08 18:10:25 · 11693 阅读 · 0 评论 -
Baichuan-13B 介绍及微调
2023年7月11日,百川智能发布Baichuan-13B!原创 2023-07-19 19:12:36 · 6480 阅读 · 5 评论 -
baichuan-7B模型介绍及微调
2023年6月15日,搜狗创始人王小川创立的百川智能公司,发布了70 亿参数量的中英文预训练大模型——baichuan-7B。baichuan-7B 基于 Transformer 结构,在大约 1.2 万亿 tokens 上训练的 70 亿参数模型,支持中英双语,上下文窗口长度为 4096。原创 2023-07-04 19:16:58 · 7145 阅读 · 4 评论 -
LLM模型中英文评测基准
为推动LLM在医疗领域的发展和落地,华东师范大学王晓玲教授团队联合阿里巴巴天池平台,复旦大学附属华山医院,东北大学,哈尔滨工业大学(深圳),鹏城实验室与同济大学推出PromptCBLUE评测基准, 对CBLUE基准进行二次开发,将16种不同的医疗场景NLP任务全部转化为基于提示的语言生成任务,形成首个中文医疗场景的LLM评测基准。MMLU 是包含 57 个多选任务的英文评测数据集,涵盖了初等数学、美国历史、计算机科学、法律等,难度覆盖高中水平到专家水平,是目前主流的LLM评测数据集。原创 2023-07-06 11:21:24 · 2715 阅读 · 0 评论 -
浅谈垂直领域大模型
在谈垂直领域大模型之前,我们先对目前的大模型做一个简单的梳理,看看大模型都有哪些。原创 2023-07-17 23:21:39 · 7265 阅读 · 0 评论 -
LLM模型微调方法及经验总结
在现在这大规模语言模型(LLM)盛行的时代,由于模型参数和显卡配置的因素,预训练基本是大公司或者高校可以完成的事情,而对于小公司或个人,则只能对LLM进行微调,也就是说微调少量或额外的模型参数,固定大部分预训练模型(LLM)参数,从而大大降低了计算和存储成本,同时,也尽可能实现与全量参数微调相当的性能。本文总结几种主流的微调方法,主要包括Freeze方法、P-tuning方法、Lora方法和Qlora方法。原创 2023-07-10 17:22:34 · 8333 阅读 · 0 评论 -
ChatGLM2发布,位居C-Eval榜首!
ChatGLM-6B自2023年3月发布以来,就已经爆火,如今6月25日,清华二代发布(ChatGLM2-6B),位居C-Eval榜单的榜首!原创 2023-06-30 14:34:47 · 1448 阅读 · 0 评论 -
Langchain-ChatGLM:基于本地知识库问答
ChatGLM-6B 是⼀个开源的、⽀持中英双语的对话语⾔模型,基于 General LanguageModel (GLM) 架构,具有 62 亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4 量化级别下最低只需 6GB 显存)。ChatGLM-6B 使用了和 ChatGPT 相似的技术,针对中文问答和对话进行了优化。原创 2023-06-06 19:33:36 · 18686 阅读 · 6 评论 -
Chinese-LLaMA-Alpaca代码实战
将alpaca-combined下的文件都放到7B目录下后,执行下面的操作。工具为例,介绍无需合并模型即可进行本地化部署的详细步骤。使用text-generation-webui搭建界面。我们进一步将FP16模型转换为4-bit量化模型。将合并后的模型权重下载到本地,然后传到服务器上。会显示:7B tokenizer.model。会生成ggml-model-f16.bin。1、先新建一个conda环境。实验效果:生成的中文较短。原创 2023-05-25 19:14:32 · 4508 阅读 · 5 评论 -
alpaca-lora微调
预训练模型:decapoda-research/llama-7b-hf 会自动下载。共计33个405M的bin文件,大约占用约14G内存。如果报错,不能创建链接,降低下gradio版本即可,如:pip install gradio==3.13。设置generate.py文件,将share=True,便于公网访问。微调过程预计需要60个小时,占用显存约9个G。该数据基于斯坦福alpca数据进行了清洗。由于微调时间较长,这里直接后台运行。效果如下,显存占用约8个G。1、将项目下载到本地。原创 2023-05-25 18:42:10 · 832 阅读 · 2 评论 -
基于ChatGLM-Med与HuaTuo的微调部署
如何基于领域知识对类ChatGPT模型进行微调,以提升类ChatGPT模型在领域的问答效果?有下面两个模型,一起来看看微调后的效果如何。: 基于中文医学知识的ChatGLM模型微调:基于中文医学知识的LLaMA微调模型。原创 2023-05-06 12:31:20 · 3924 阅读 · 18 评论 -
ChatGLM-6B微调与部署
ChatGPT所展现出的强大能力,足以使许多行业发生翻天覆地的变化,而通过微调及部署较小的模型,在一些垂直领域达到和ChatGPT相近的效果,显得尤为重要。本文从模型参数,中文,微调难度等多角度考虑,选取了ChatGLM-6B模型来进行实验,主要分为3个部分:基于ChatGLM-6B的部署,基于peft框架的LoRA微调ChatGLM-6B,基于P-Tuning v2微调ChatGLM-6B(官方)。原创 2023-05-05 14:58:25 · 9985 阅读 · 17 评论 -
【self-instruct方式生成语料代码实战】
2023年3月14日,斯坦福发布了,该模型是对Meta的LLaMA &B进行了微调,且只花费了不到600美元。其中,微调过程:在8个80GB A100上训练了3个小时,不到100美元;而微调所用数据是使用OpenAI的API,通过self-instruct方式生成的52K指令数据,花费了500美元。self-instruct是一种将预训练语言模型与指令对齐的方法。可以通过模型自己来生成数据,而不需要大量的人工标注。原创 2023-04-27 14:50:23 · 9702 阅读 · 11 评论