
大语言模型
文章平均质量分 64
一位安分的码农
这个作者很懒,什么都没留下…
展开
-
人工智能与人工计算的发展——孙凝晖院士
计算技术的发展历史大致可分为四个阶段,算盘的出现标志着人类进入第一代——机械计算时代,第二代——电子计算的标志是出现电子器件与电子计算机,互联网的出现使我们进入第三代——网络计算,当前人类社会正在进入第四阶段——智能计算。早期的计算装置是手动辅助计算装置和半自动计算装置,人类计算工具的历史是从公元1200年的中国算盘开始,随后出现了纳皮尔筹(1612年)和滚轮式加法器(1642年),到1672年第一台自动完成四则运算的计算装置——步进计算器诞生了。机械计算时期已经出现了现代计算机的一些基本概念。原创 2024-05-27 11:27:26 · 1407 阅读 · 0 评论 -
噪声的力量:重新定义 RAG 系统的检索
该文得到了一个反常识的结论,当无关的噪声文档放在正确的位置时,实际上有助于提高RAG的准确性。原创 2024-04-06 17:29:08 · 1181 阅读 · 0 评论 -
中文Mistral模型介绍(Chinese-Mistral)——中文大语言模型
我们基于Mistral-7B进行了中文词表扩充和增量预训练,增强了Mistral-7B在中文任务上的表现,并提高了其对中文文本的编解码效率。原创 2024-04-06 17:11:00 · 8001 阅读 · 0 评论 -
开源中文大语言模型汇总
Mistral是超越llama的最强开源模型,由于发布时间晚于llama,因此其中文版本较少。llama作为开源社区的宠儿,有许多基于它的中文模型,下面列举比较流行的一些模型。原创 2024-04-02 17:30:21 · 1939 阅读 · 1 评论 -
普林斯顿DeepMind用数学证明:LLM不是随机鹦鹉!「规模越大能力越强」有理论根据
一开始,LLM可能选不准词,算法就会给出一个损失值,即在某个高维的数学空间中,LLM给出的初始答案和原句正确答案之间的「距离」(distance),然后用这个值来对参数进行微调。他们注意到,随着模型的增大,无论是在大小还是在训练数据量上,它在测试数据上的损失(在训练后对新文本的预测与正确答案之间的差异)以一种非常特定的方式减少。接下来,两位研究人员又找到了一种解释更大模型所获得的能力的方法——随着LLM的大小增加和测试损失减小,技能节点的随机组合开始连接到个别文本节点。研究这些图揭示了节点之间的某些关系。原创 2024-04-02 16:52:59 · 354 阅读 · 0 评论 -
采用大语言模型进行查询重写——Query Rewriting via Large Language Models
查询重写是在将查询传递给查询优化器之前处理编写不良的查询的最有效技术之一。手动重写不可扩展,因为它容易出错并且需要深厚的专业知识。类似地,传统的查询重写算法只能处理一小部分查询:基于规则的技术不能推广到新的查询模式,并且基于综合的技术无法处理复杂的查询。幸运的是,大型语言模型(大语言模型)的兴起,配备了广泛的常识和先进的推理能力,为解决一些以前未解决的问题带来了希望。在本文中,我们提出了GenRewrite,这是第一个利用大语言模型进行查询重写的整体系统。原创 2024-04-02 15:46:26 · 2377 阅读 · 1 评论 -
哈工大中文mistral介绍(Chinese-Mixtral-8x7B)
Chinese-Mixtral-8x7B基于Mistral发布的模型Mixtral-8x7B进行了中文扩词表增量预训练。扩充后的词表显著提高了模型对中文的编解码效率,并通过大规模开源语料对扩词表模型进行增量预训练,使模型具备了强大的中文生成和理解能力。开源地址见https://github.com/HIT-SCIR/Chinese-Mixtral-8x7B。参考https://github.com/HIT-SCIR/Chinese-Mixtral-8x7B。该项目开源了模型权重和扩词表增量预训练代码。原创 2024-02-29 22:07:57 · 1566 阅读 · 0 评论 -
继续预训练对大语言模型的影响
本文研究了大型语言模型(LLMs)中不断学习(CL)的不断发展领域,重点是制定有效和可持续的训练策略。我们主要关注持续领域自适应预训练,这是一个旨在使LLMs能够整合来自各个领域的新信息,同时保留先前学到的知识并增强跨领域知识转移的能力,而无需依赖于特定领域的识别过程。与以往主要集中于有限的任务或领域并主要旨在解决遗忘问题的研究不同,我们的研究评估了LLMs在实际场景中适应不断变化的数据环境的能力和特点。为此,我们引入了一个旨在衡量LLMs对这些不断演变的数据环境的适应能力的新基准,提供了全面的评估框架。原创 2024-02-29 21:59:01 · 1778 阅读 · 0 评论 -
huggingface上传或发布自己的模型(大语言模型LLM)
在注册huggingface账号,登录账号后,在https://huggingface.co/settings/tokens创建token,注意需要将token的类型设置为WRITE。原创 2024-02-28 21:36:34 · 2832 阅读 · 0 评论 -
Linux系统安装Anaconda
在这个网站https://pytorch.org/get-started/previous-versions/找到自己想要的版本。2、我安装的是Anaconda3-2020.11-Linux-x86_64.sh,所以下载安装包的命令是。4、重新打开终端,输入如下内容检验是否成功安装。若成功显示conda版本,即表示安装成功。6、下面我们安装pytorch。查找自己想要安装的版本。原创 2023-05-26 14:24:58 · 384 阅读 · 0 评论 -
linux(ubuntu)安装Docker教程-超详细超简单
经过上述配置,我们已经成功安装Docker。但是,现在只有管理员能够使用Docker,其他用户没有使用Docker的权限,下面我们再进行配置,使得其他用户也能使用Docker。5、添加Docker源,这里我们选择的是stable稳定版。8、这里我们安装安装Docker的社区版。7、查看有哪些Docker版本可以安装。现在,其他用户也能使用Docker了。12、设置Docker开机自动启动。4、为系统添加Docker的密钥。11、查看Docker是否开启。10、启动Docker服务。1、首先进入管理员权限。原创 2023-05-22 11:39:39 · 2696 阅读 · 0 评论 -
基于GPT-2实现图像文本生成
使用google的vit-base-patch16-224模型处理图像,做encoder。最后通过VisionEncoderDecoderModel将这两个模型粘起来。使用GPT-2模型处理文本,做decoder。原创 2023-03-31 19:52:03 · 1417 阅读 · 0 评论 -
下载huggingface-transformers模型至本地,并使用from_pretrained方法加载
我们经常会使用到hugging face开源的transformers包,调用from_pretrained方法直接下载模型时,经常会下载很久甚至失败.而且由于它自动将下载的模型保存至文件夹下,这不方便我们对模型进行备份。为了解决这个问题,下面我们将实现“下载huggingface-transformers模型至本地,并使用from_pretrained方法加载”。原创 2023-03-31 17:31:12 · 27428 阅读 · 5 评论 -
python实现ChatGPT连续多轮对话
注意,api_key需要改成自己的密钥才能成功运行。原创 2023-03-26 14:48:36 · 4968 阅读 · 1 评论