- 博客(274)
- 资源 (12)
- 收藏
- 关注
原创 ubuntu22安装AI环境
查看可安装Ubuntu驱动列表安装指定驱动选择带有“recommended”标记的驱动程序即可,更高版本的是最新版,可能存在兼容问题。
2024-09-26 15:56:26
479
原创 第三期书生大模型实战营 进阶岛第6关 MindSearch 快速部署
打开主页,选择blank template。接下来的操作就和我们使用vscode基本没差别了。然后我们新建一个目录用于存放 MindSearch 的相关代码,并把 MindSearch 仓库 clone 下来。接下来,我们创建一个 conda 环境来安装相关依赖。
2024-08-28 16:52:23
994
原创 第三期书生大模型实战营 进阶岛第5关 茴香豆:企业级知识库问答工具
茴香豆也用 gradio 搭建了一个 Web UI 的测试界面,用来测试本地茴香豆助手的效果。茴香豆的所有功能开启和模型切换都可以通过 config.ini 文件进行修改,默认参数如下。修改完配置文件后,就可以进行知识库的搭建,
2024-08-28 13:37:20
442
原创 第三期书生大模型实战营 进阶岛第4关 InternVL 多模态模型部署微调实践
如果这里你执行的epoch不是6,是小一些的数字。你可能会发现internvl_ft_run_8_filter下没有iter_3000.pth, 那你需要把iter_3000.pth切换成你internvl_ft_run_8_filter目录下的pth即可。这里使用之前搞好的configs进行训练。要不半卡不够用的 QAQ。这里我们也为大家准备好了可以直接进行微调的数据集。之后我们使用lmdeploy自带的pipeline工具进行开箱即用的推理流程,首先我们新建一个文件。使用pipeline进行推理。
2024-08-23 09:20:30
354
原创 第三期书生大模型实战营 进阶岛第3关LMDeploy 量化部署进阶实践
为方便文件管理,我们需要一个存放模型的目录,本教程统一放置在/root/models/目录。运行以下命令,创建文件夹并设置开发机共享目录的软链接。此时,我们可以看到中会出现和文件夹。LMDeploy验证启动模型文件在量化工作正式开始前,我们还需要验证一下获取的模型文件能否正常工作,以免竹篮打水一场空。让我们进入创建好的conda环境并启动!显存占用情况。
2024-08-22 17:25:49
628
原创 第三期书生大模型实战营 进阶岛第2关 Lagent 自定义你的 Agent 智能体
继承 BaseAction 类 实现简单工具的 run 方法;或者实现工具包内每个子工具的功能 简单工具的 run 方法可选被tool_api 装饰;工具包内每个子工具的功能都需要被 tool_api 装饰然后,我们将下面的代码复制进入'dongman', # 动漫'guofeng', # 国风'xieshi', # 写实'youhua', # 油画'manghe', # 盲盒else:else:@tool_apiArgs:Returns:"""try:}),
2024-08-21 19:16:51
450
原创 第三期书生大模型实战营 第6关 OpenCompass 评测 InternLM-1.8B 实践
确保按照上述步骤正确安装 OpenCompass 并准备好数据集后,可以通过以下命令评测 InternLM2-Chat-1.8B 模型在 C-Eval 数据集上的性能。由于 OpenCompass 默认并行启动评估过程,我们可以在第一次运行时以 --debug 模式启动评估,并检查是否存在问题。确保按照上述步骤正确安装 OpenCompass 并准备好数据集后,可以通过以下命令评测 InternLM2-Chat-1.8B 模型在 C-Eval 数据集上的性能。
2024-08-21 16:38:35
433
原创 第三期书生大模型实战营 第4关 Llamaindex RAG实践
正式介绍检索增强生成(Retrieval Augmented Generation,RAG)技术以前,大家不妨想想为什么会出现这样一个技术。给模型注入新知识的方式,可以简单分为两种方式,一种是内部的,即更新模型的权重,另一个就是外部的方式,给模型注入格外的上下文或者说外部信息,不改变它的的权重。第一种方式,改变了模型的权重即进行模型训练,这是一件代价比较大的事情,大语言模型具体的训练过程,可以参考InternLM2技术报告。第二种方式,并不改变模型的权重,只是给模型引入格外的信息。
2024-08-21 10:10:49
457
原创 第三期书生大模型实战营 第3关 浦语提示词工程实践
在模型回复的过程中,首先获取用户输入的文本,然后处理文本特征并根据输入文本特征预测之后的文本,原理为next token prediction。InternLM部署完成后,可利用提供的chat_ui.py创建图形化界面,在实战营项目的tools项目中。Capacity and Role (能力与角色):希望 ChatGPT 扮演怎样的角色。Insight (洞察力):背景信息和上下文(坦率说来我觉得用 Context 更好)。Statement (指令):希望 ChatGPT 做什么。
2024-08-21 09:11:48
368
原创 第三期书生大模型实战营 第2关 8G 显存玩转书生大模型 Demo
我们已经在 /root/share/pre_envs 中配置好了预置环境xtuner0.1.17。
2024-08-20 09:55:55
265
原创 第三期书生大模型实战营 第1关 书生大模型全链路开源体系
InternLM2模型面向不同的使用需求开源了多种参数量的模型。7B为轻量级的研究和应用提供了一个轻便但性能不俗的模型20B模型的综合能力更为强劲,可有效支持更加复杂的实用场景在不同的参数量模型之中又进一步划分为了三类InternLM2-Base 高质量和强可塑性的基座模型,适用于对模型进行领域深度适配InternLM2 在Base基础上进行多方向强化,在保持很好的通用语言能力的基础上提升了模型在各类评测中的成绩。
2024-08-20 09:20:06
655
原创 书生浦语大模型实战营---Python task
请实现一个wordcount函数,统计英文字符串中每个单词出现的次数,通过构建defaultdict字典,可以避免插入值时需要判断值是否存在。首先是进入函数内,目前缓存中有一个局部变量。首先对文本进行split,
2024-07-12 12:20:42
266
1
原创 书生浦语大模型实战营---Linux 基础知识
如果你已经安装好了VScode,可以在点击左侧的扩展页面,在搜索框中输入“SSH”,第一个就是我们要安装的插件,点开它“Install”就可以了。4、将刚刚生成的密钥复制下来,粘贴到公钥框中,名称会被自动识别到,最后点击立即添加,SSH Key就配置完成了。安装完成插件以后,点击侧边栏的远程连接图标,在SSH中点击“+”按钮,添加开发机SSH连接的登录命令。3、回到开发机平台,在首页点击配置SSH Key,接着点击添加SSH公钥,我们将登录命令复制下来,然后将命令粘贴到弹出的窗口中,最后回车。
2024-07-12 09:45:26
450
原创 AI--构建检索增强生成 (RAG) 应用程序
LLM 所实现的最强大的应用之一是复杂的问答 (Q&A) 聊天机器人。这些应用程序可以回答有关特定源信息的问题。这些应用程序使用一种称为检索增强生成 (RAG) 的技术。典型的 RAG 应用程序有两个主要组件4.:根据用户输入,使用检索器从存储中检索相关分割。5.:ChatModel / LLM使用包含问题和检索到的数据的提示生成答案输出结果首先:这些组件(retriever、prompt、chat等)中的每一个都是Runnable的实例。
2024-05-23 22:04:48
1253
原创 AI-创建一个Agent
首先需要创建要使用的工具。我们将使用两个工具:Tavily(用于在线搜索)以及我们将创建的本地索引检索器创建在线搜索工具输出结果为创建本地本地索引检索器工具#加载一篇blog作为本地知识库#对知识库进行拆分#加载检索引擎#创建检索工具retriver,",
2024-05-23 16:24:39
1214
原创 AI--向量的存储和检索
Vectorstore 实现了as_retriever一个生成 Retriever 的方法,特别是VectorStoreRetriever。这些检索器包括特定的search_type属性search_kwargs,用于标识要调用的底层向量存储的哪些方法以及如何参数化它们。如果我们选择要使用的方法检索文档,我们可以轻松创建一个可运行的程序。向量检索是一种常见的存储和检索非结构化数据的方式,主要思路是存储文本的数据向量,给出一个查询,我们编码查询成同一个维度的数据向量,然后使用相似度去查找相关数据。
2024-05-23 14:50:29
1061
原创 书生·浦语大模型实战营第四次笔记和作业
为了让模型能够让模型认清自己的身份弟位,知道在询问自己是谁的时候回复成我们想要的样子,我们就需要通过在微调数据集中大量掺杂这部分的数据。首先我们先创建一个文件夹来存放我们这次训练所需要的所有文件之后我们可以在 data 目录下新建一个 generate_data.py 文件,将以下代码复制进去,然后运行该脚本即可生成数据集。假如想要加大剂量让他能够完完全全认识到你的身份,那我们可以吧 n 的值调大一点。并将文件 name 后面的内容修改为你的名称。修改完成后运行 generate_data.py 文件
2024-05-11 17:22:17
352
原创 书生·浦语大模型实战营第七次笔记和作业
针对如模型安全和模型语言能力的评测,以人的主观感受为主的评测更能体现模型的真实能力,并更符合大模型的实际使用场景。同时,由于大语言模型输出自由度较高,在评测阶段,我们需要对其输入和输出作一定的规范和设计,尽可能减少噪声输出在评测阶段的影响,才能对模型的能力有更加完整和客观的评价。客观评测能便捷地评估模型在具有确定答案(如选择,填空,封闭式问答等)的任务上的能力,主观评测能评估用户对模型回复的真实满意度,OpenCompass 采用基于模型辅助的主观评测和基于人类反馈的主观评测两种方式。
2024-05-11 16:47:18
524
原创 书生·浦语大模型实战营第六次笔记和作业
进入开发机后,为了方便使用,我们需要配置一个环境以同时满足 Lagent 和 AgentLego 运行时所需依赖。
2024-05-11 15:57:10
606
原创 书生浦语第五次课
在InternStudio开发机进行vscode平台,然后创建一个pipeline_transformer.py文件,复制下面的代码,需要将modelpath 地址修改为自己的目录下地址。InternStudio上提供了快速创建conda环境的方法。由于在InternStudio开发机上,这次直接从/root/share文件中cp到/root/models/Shanghai_AI_Laboratory中。下面我们就可以与InternLM2-Chat-1.8B大模型对话了。在我自己的机器上执行如下。
2024-04-10 10:50:45
283
原创 ssh -CNg -L
L 6006:127.0.0.1:6006: 这个选项表示在本地主机上创建一个端口转发,将本地主机的6006端口转发到远程主机的127.0.0.1的6006端口。-g: 这个选项表示允许远程主机连接到本地转发的端口。如果不加这个选项,只有本地主机可以连接到转发的端口。-N: 这个选项表示不执行远程命令。root@ssh.intern-ai.org.cn: 这是远程主机的用户名和主机名。-p 33908: 这个选项表示连接远程主机时使用的端口号。-C: 这个选项表示开启压缩,可以提高数据传输的效率。
2024-04-07 10:24:33
775
原创 书生浦语第一次课
使 用 场 景 : 让 模 型 学 会 理 解 各 种 指 令 进 行 对 话 , 或 者 注 入 少 量 领 域 知 识 训 练 数 据 : 高 质 量 的 对 话 、 问 答 数 据。使 用 场 景 : 让 基 座 模 型 学 习 到 一 些 新 知 识 , 如 某 个 垂 类 领 域 知 识 训 练 数 据 : 文 章 、 书 籍 、 代 码 等。利用高质量语料的特征从物理世界、互联网以及语料进一步富集耕读类似语料。基于文本质量、信息质量、信息密度等维度对数据简直进行综合评估和提升。
2024-04-01 10:08:55
397
原创 书生·浦语 demo1
进入开发机后,在 terminal 中输入环境配置命令。通过左侧文件夹栏目,双击进入 demo 文件夹。上面命令执行完后,conda会多一个虚拟环境。使用 pip list 查看是否安装好。或者直接通过vscode执行,执行下面命令安装环境依赖包。
2024-03-31 10:16:55
487
原创 sklearn.model_selection模块介绍
外层交叉验证用于评估不同的模型或模型参数,内层交叉验证用于在每个外层验证折上进行模型训练和验证。与网格搜索不同,随机搜索不遍历所有参数组合,而是在指定的参数空间中进行随机抽样,并在交叉验证中评估每个参数组合的性能。K次训练和验证的结果会进行平均,得到最终的性能评估。留一交叉验证是一种特殊的K折交叉验证,其中K等于数据集的样本数量。分层K折交叉验证是K折交叉验证的一种变体,它在划分数据集时保持了每个类别的样本比例。随机重复K折交叉验证是K折交叉验证的扩展,通过多次重复执行K折交叉验证来更稳定地评估模型性能。
2023-07-01 22:35:50
4692
原创 sklearn.preprocessing模块介绍
用于对离散特征进行独热编码。它将每个离散特征的每个取值转换为一个二进制特征向量,其中只有一个元素为 1,表示该取值,其他元素为 0。
2023-07-01 11:04:43
4666
1
原创 Python强类型编程
第一个例子体现动态性:用字符串直接执行代码,动态构建了一个函数并执行,甚至给函数挂载新的名字。第二个例子体现强类型性:变量都有类型信息,不同类型无适配操作时不允许操作,例如整数和字符串不允许相加。
2023-06-27 17:30:23
1100
原创 python库之math库介绍
描述:如果 x 既不是无穷大也不是NaN,则返回 True ,否则返回 False。描述:返回余数,函数 fmod() 在使用浮点数时通常是首选,而Python的 x % y 在使用整数时是首选。描述:返回 x 的向下取整,小于或等于 x 的最大整数。描述:如果 x 是 NaN(不是数字),则返回 True ,否则返回 False。描述:如果 x 是正或负无穷大,则返回 True ,否则返回 False。描述:浮点正无穷大。描述:向上取整数,返回 x 的上限,即大于或者等于 x 的最小整数。
2023-06-25 23:55:41
1157
原创 信息量、熵、联合熵、条件熵、相对熵、交叉熵、JS散度、Wasserstein距离
信息量(self-information),又译为信息本体,由克劳德 · 香农(Claude Shannon)提出,用来衡量单一事件发生时所包含的信息量多寡。任何事件都会承载着一定的信息量,包括已经发生的事件和未发生的事件,只是它们承载的信息量会有所不同。对于一个事件来说,它发生的概率越大,确定性越强,显然它所含有的信息量就越低。一件事情发生的概率越低,不确定性越强,它包含的信息量就越大。例如对于昨天下雨这个已知事件,因为是已经发生的事件,是既定事实,那么它的信息量就为。信息量的数学期望就是信息熵。
2023-06-19 16:55:18
324
原创 特征选择:过滤法,嵌入法,包装法
到这里我们学习了常用的基于过滤法的特征选择,包括方差过滤,基于卡方,F检验和互信息的相关性过滤,讲解了各个过滤的原理和面临的问题,以及怎样调这些过滤类的超参数。通常来说,我会建议,先使用方差过滤,然后使用互信息法来捕捉相关性,不过了解各种各样的过滤方式也是必要的。
2023-06-18 22:07:39
1397
原创 数据预处理:标准化、正则化、最大最小归一化、绝对值标准化
适用大多数类型的数据,标准化之后的数据是以0为均值,方差为1的正态分布。:是一种中心化方法,会改变原有数据得分布结构。:能最大限度地保留数据集中的异常(离群点):应用广泛,能较好的保持原有数据分布结构。:.对异常值(离群值)的存在非常敏感。:.对异常值(离群值)的存在非常敏感。:最大限度保留数据集中的异常(离群值):均值为0,方差为1的标准正态分布。:稀疏数据、稀疏CSR或CSC矩阵。:单向量上来实现这正则化的功能。:不适合用于稀疏数据的处理。:不适合用于稀疏数据的处理。:保持原有数据分布结构。
2023-06-15 14:59:37
1568
原创 全网最全seaborn的介绍
stripplot()方法是catplot()中 kind 的默认参数,它是用少量随机“抖动”调整分类轴上的点的位置。在 seaborn 中,最简单的方法就是使用jointplot()函数,它创建了一个多面板图形,显示了两个变量之间的二元(或联合)关系,以及每个变量在单独轴上的一元(或边际)分布。在绘制柱状图时,您的主要选择是要使用的“桶”的数量和放置它们的位置。distplot() 使用一个简单的规则来很好地猜测默认情况下正确的数字是多少,但是尝试更多或更少的“桶”可能会揭示数据中的其他特性。
2023-06-11 23:41:33
224
原创 numpy中的np.random.rand、np.random.randn、np.random.randint、np.random.uniform等用法
np.random.uniform(low=0.0, high=1.0, size=None):生成一个指定形状的在给定范围内均匀分布的随机数数组。np.random.random(size=None):与np.random.random_sample方法相同,生成一个指定形状的[0, 1)之间均匀分布的随机数数组。参数n指定了试验的次数,p指定了每次试验成功的概率,size指定了生成的随机数的形状。参数low和high指定了随机数的范围,size指定了生成的随机数的形状,dtype指定了数组的数据类型。
2023-06-10 16:47:33
2690
1
原创 混淆矩阵、准确率、召回率、漏报率、误报率、F1分数
比如在样本集中,正样本有90个,负样本有10个,样本是严重的不均衡。因为在二分类问题中单一样本的预测结果只有Yes or No,即:真或者假两种结果,所以全体样本的经二分类模型处理后,处理结果不外乎四种情况,每种情况都有一个专门称谓,如果用一个2行2列表格描述,得到的就是“混淆矩阵”,反映分类器或者模型正确预测负样本纯度的能力,减少将正样本预测为负样本,即正样本被预测为负样本占总的正样本的比例。反映分类器或者模型正确预测正样本纯度的能力,减少将负样本预测为正样本,即负样本被预测为正样本占总的负样本的比例。
2023-06-10 11:48:01
3285
1
原创 Statsmodels 统计包之 OLS 回归
Statsmodels 在计量的简便性上是远远不及 Stata 等软件的,但它的优点在于可以与 Python 的其他的任务(如 NumPy、Pandas)有效结合,提高工作效率。在本文中,我们重点介绍最回归分析中最常用的 OLS(ordinary least square)功能。Statsmodels 是 Python 中一个强大的统计分析包,包含了回归分析、时间序列分析、假设检。
2023-06-04 23:44:35
226
spring-5.2.6.RELEASE-dist.7z
2021-07-18
mysql57-community-release-el7-9.noarch.rpm
2020-10-25
LSM-tree.7z
2020-07-06
NetAssist.zip
2020-05-21
MySQL15_47360.zip
2020-04-22
DOSBox0.74-win32-installer.zip
2019-10-24
DOSbox使用的masm.zip
2019-10-24
copy fofboiv sfbo .zip
2019-06-27
《机器学习与应用》_雷明 百度网盘
2019-04-07
Pig编程指南.pdf
2017-02-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人