自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(159)
  • 收藏
  • 关注

原创 TASK06【Datawhale 组队学习】开源RAG项目学习

这里以该项目 project/qa_chain/model_to_llm.py 代码为例,在 project/llm/ 的目录文件夹下分别定义了 星火spark,智谱glm,文心llm等开源模型api调用的封装,并在 project/qa_chain/model_to_llm.py 文件中导入了这些模块,可以根据用户传入的模型名字进行调用 llm。在对知识库文本进行分割和向量化后,就需要定义一个向量数据库用来存放文档片段和对应的向量表示了,在向量数据库中,数据被表示为向量形式,每个向量代表一个数据项。

2025-05-26 01:11:32 979

原创 TASK05【Datawhale 组队学习】系统评估与优化

或者。

2025-05-23 22:29:03 926

原创 TASK04【Datawhale 组队学习】构建RAG应用

langchain可以便捷地调用大模型,并将其结合在以langchain为基础框架搭建的个人应用中。

2025-05-21 23:26:55 659

原创 TASK03【Datawhale 组队学习】搭建向量知识库

它与传统的基于关系模型的数据库不同,它主要关注的是向量数据的特性和相似性。单个文档的长度往往会超过模型支持的上下文,导致检索得到的知识太长超出模型的处理能力,因此,在构建向量知识库的过程中,我们往往需要对文档进行分割,将单个文档按长度或者按固定的规则分割成若干个 chunk,然后将每个。词向量实际上是将单词转化为固定的静态的向量,虽然可以在一定程度上捕捉并表达文本中的语义信息,但忽略了单词在不同语境中的意思会受到影响这一现实。词向量背后的主要想理念是相似或相关的对象在向量空间中的距离应该很近。

2025-05-18 22:49:59 787

原创 TASK02【datawhale组队学习】coze-ai-assistant 第三章智能体

智能体(Agent):能够自主操作、作出决策的实体。设计目的是让它能够感知其环境,并根据感知到的信息作出反应;能够在其所处的环境中执行任务,并达到预定的目标。可能是实际的物理世界,也可能是数字世界,如虚拟环境或软件应用中。智能体不仅能够准确回答问题,还能随着使用逐渐变得更聪明和高效。Agent 和 LLM 在功能和应用场景上有明显的互补关系。Agent = LLM + 记忆 +规划技能 + 工具使用。可能是文本信息,也可能是语音、图片、视频等多模态信息。LLM则专注于自然语言的理解和生成。

2025-05-16 00:53:14 259

原创 TASK02【Datawhale 组队学习】使用 LLM API 开发应用

在以下的样例中,我们先给了一个 {<学生>:<圣贤>} 对话样例,然后要求模型用同样的隐喻风格回答关于“孝顺”的问题,可以看到 LLM 回答的风格和示例里<圣贤>的文言文式回复风格是十分一致的。提示词注入:用户输入的文本可能包含与你的预设 Prompt 相冲突的内容,如果不加分隔,这些输入就可能“注入”并操纵语言模型,轻则导致模型产生毫无关联的不正确的输出,严重的话可能造成应用的安全风险。的 Prompt 能够提供更丰富的上下文和细节,让模型可以更准确地把握所需的操作和响应方式,给出更符合预期的回复。

2025-05-15 22:42:29 915

原创 【datawhale组队学习笔记TASK01】AI春训营 AI+生命科学

公网地址:v1。

2025-05-15 16:34:05 1025

原创 【datawhale组队学习】coze-ai-assistant TASK01

通过扣子开发的 AI 应用有明确的输入和输出,可以根据既定的业务逻辑和流程完成一系列简单或复杂的任务,例如 AI 搜索、翻译工具、饮食记录等。工作流具备了: 大量的重复性任务 (如内容创作、编辑、发布)和 固定的业务流程 (如策划、创作、审核、发布)。的 AI 项目,它通过对话方式接收用户的输入,由大模型自动调用插件或工作流等方式执行用户指定的业务流程,并生成最终的回复。教程:Coze / 扣子(飞书文档)10. 教程:Coze / 扣子。4万字教程-COZE/扣子与智能体入门(飞书文档)

2025-05-13 20:33:05 1187

原创 【datawhale 组队学习】task01 第一章LLM介绍

时间安排如下国外的知名 LLM 有 GPT、LLaMA、Gemini、Claude 和 Grok 等国内的有 DeepSeek、通义千问、豆包、Kimi、文心一言、GLM 等。涌现能力:尽管这些大型语言模型与小型语言模型(例如 3.3 亿参数的 BERT 和 15 亿参数的 GPT-2)使用相似的架构和预训练任务,但它们展现出截然不同的能力,尤其在解决复杂任务时表现出了惊人的潜力,这被称为“涌现能力”GPT-3 可以通过学习上下文来解决少样本任务,而 GPT-2 在这方面表现较差。

2025-05-13 18:59:57 1144

原创 【datawhale学习】AI办公实践与应用o

输出要求。

2025-05-11 15:57:41 773

原创 【datawhaleAI春训营】帖子互动量预测

对于一条原创博文而言,转发、评论、赞等互动行为能够体现出用户对于博文内容的兴趣程度,也是对博文进行分发控制的重要参考指标。本届赛题的任务就是根据抽样用户的原创博文在发表一天后的转发、评论、赞总数,建立博文的互动模型,并预测用户后续博文在发表一天后的互动情况。1.2f.2f。

2025-05-05 23:59:18 152

原创 【datawhaleAI春训营】楼道图像分类

没有看清楚教程。一开始选择了第一种cpu方式运行,发现不行。然后使用了方式二可以运行图像分类是计算机视觉中最基础的任务之一。它的目标是从输入的图像中判断出图像的类别(在这个赛题中,是判断场景是“楼道”还是“非楼道”)。这种任务相对简单,容易理解和实现,是入门计算机视觉的绝佳起点。数据集的特点如下:多样性:图片内容丰富,包含楼道、街道、室内其他区域等。复杂性:楼道场景中可能存在各种消防隐患,如堆积物、电动车、飞线充电等。标注信息(也是我们要分类预测的结果) :每张图片都有标注信息,说明其场景类别(楼

2025-05-05 22:53:46 698

原创 【datawhaleAI春训营】老人点餐推荐

接下来也请小伙伴们尝试将任务三的后半部分使用代码实现。这里给出参考方法。这里的思路是使用llamaindex框架,通过语义相似性匹配excel中对应的数据进行匹配。目前A榜给出的txt,可以将处理方式简单变换实现。这也是RAG实现的思路方案。当然 ,如果你不满足目前的方法可以学学上分点拨思路历程。# 1. 安装依赖"""读取 Excel,并构建向量索引。每行拼成一个字符串 Document。"""docs = []# 将每列:值 拼成一段文本text = ";".join(f"

2025-05-05 21:47:23 714

原创 【datawhale学习笔记】AI春训营 AI+新能源

我根据下图有以下猜测对于以上猜测我们需要观察更多的数据予以验证,在这期间也会产生更多的想法。

2025-04-19 22:11:19 449

原创 【datawhaleAI春训营第一期笔记】AI+航空安全

1.输入:过去2个时刻117个通道2.目标:未来1个时刻117个通道3.结果:自回归生成未来12小时预报4.提交:截取30个通道的中国区域将全球气象预测转换为 结构化回归问题 ,核心挑战:5. 高维度时空数据 :2个历史时刻 × 117变量 × 181纬度 × 360经度 → 约千万原始特征6. 长预测序列 :需预测未来12个时间步(72小时)的30个目标变量7. 空间依赖性 :相邻格点的气象状态高度相关1)原始数据2)时空特征工程3)分层预测架构4)模型训练。

2025-04-18 21:24:00 668

原创 linux一些指令

而在升级模式下,不管系统中是否有较旧的版本,rpm 命令都会安装指定的软件包。.txt’ | xargs cp -av --target-directory=/home/backup/ --parents 从一个目录查找并复制所有以 ‘.txt’ 结尾的文件到另一个目录。mkisofs -J -allow-leading-dots -R -V “Label CD” -iso-level 4 -o ./cd.iso data_cd 创建一个目录的iso镜像文件。

2025-04-13 02:21:44 811

原创 【数据结构笔记】王道外部排序打卡表

若顺序二叉树从数组下标1开始存储结点,则:●结点 i 的父结点编号为 i/2●结点 i 的左孩子编号为 i2●结点 i 的右孩子编号为 i2+1若顺序二叉树从数组下标0开始存储结点,则:●结点 i 的父结点编号为 [(i+1)/2] - 1●结点 i 的左孩子编号为 [(i+1)2] - 1 = 2i + 1●结点 i 的右孩子编号为 [(i+1)i + 2堆排序最终要生成升序数组:建立大根堆堆排序最终要生成降序数组:建立小根堆。

2025-04-13 02:21:09 299

原创 【笔记】计算机网络CSMA 湖科大每日一题(不全

在下图所示的分组交换网中,各链路的频率带宽为8kHz,采用QAM-32调制技术,在无噪声的情况下,主机A给主机B发送一个大小为800B的文件,分组大小为100B,其中分组头大小为20B,则在不考虑分组拆装时间和信号传播时延的情况下,从A发送开始到B接收完为止,需要的时间至少是()。某一时刻,在接收方,下一个期望收到的分组的序号为5,则在发送方的发送窗口中可能出现的序号组合有()假设主机A是100Base-T以太网中的某个主机,主机A发送某个帧时遭遇了多次碰撞,在第12次碰撞后,可能的最长退避时间是()。

2025-04-13 02:20:55 920

原创 【Datawhale AI春训营】TASK01

(2,1,22,2)->(2,22,2),如果是(2,3,1,3)则不进行操作。例如,如果 output_core 的形状是 (30, 46, 71),那么 unsqueeze(0) 后的形状将变为 (1, 30, 46, 71)。例如,如果输入张量的形状是 (1, 117, 181, 360),那么 squeeze(0) 后的形状将变为 (117, 181, 360)。expand(1, 12, -1, -1, -1)在第1维度复制12次,最终形状变为(1, 12, 30, 46, 71)

2025-04-13 02:18:34 784

原创 【数据结构】拓扑排序——课程表(深度优先搜索)

对于一个节点 u,如果它的所有相邻节点都已经搜索完成,那么在搜索回溯到 u 的时候,u 本身也会变成一个已经搜索完成的节点。这里的「相邻节点」指的是从 u 出发通过一条有向边可以到达的所有节点。我们可以将深度优先搜索的流程与拓扑排序的求解联系起来,用一个栈来存储所有已经搜索完成的节点。

2024-10-22 21:14:08 427

原创 【数据结构笔记】408二叉树、堆、AVL、图、拓扑排序

堆堆是一种特殊的完全二叉树。在堆中,每个节点的值都满足特定的顺序关系。具体分为:大根堆:任何一个父节点的值都大于或等于它的子节点的值。小根堆:任何一个父节点的值都小于或等于它的子节点的值。堆通常用于实现排序算法,如堆排序。二叉排序树(二叉查找树、二叉搜索树)二叉排序树是一种具有特定性质的二叉树。在二叉排序树中,左子树上所有节点的值均小于根节点的值,右子树上所有节点的值均大于根节点的值。左右子树也分别为二叉排序树。二叉排序树主要用于实现动态查找操作。

2024-10-21 21:15:25 1006

原创 【王道视频笔记】红黑树的定义和性质

*回答:**内部结点数最多的情况–h层黑结点,每一层黑结点下面都铺满一层红结点。结点的黑高bh–从某结点出发(不含该结点)到达任一叶结点的路径上黑结点总数。**思考:**根节点黑高为h的红黑树,内部结点数(关键字)至少有多少个?**思考:**根节点黑高为h的红黑树,内部结点数(关键字)至多有多少个?**回答:**内部结点数最少的情况–总共h层黑结点的满树形态。**结论:**若根节点黑高为h,内部结点数(关键字)最多有。**结论:**若根节点黑高为h,内部结点数(关键字)最少有。

2024-10-11 12:33:00 624

原创 【自用视频笔记】25计算机基础综合408大纲新增考点 多处理机调度

25计算机基础综合。

2024-10-11 10:50:12 1438

原创 【视频笔记】408新增知识点信号——里昂视频

可以看到,每次按下Ctrl+C,都会打印对应内容(实现自定义的功能而不是像原来一样终止进程),而sigNum也证明Ctrl+C对应的信号值确实是2号(SIGINT)。【例】Linux下,用一个名为task_struct的结构体类型来描述PCB,包括很多字段,如进程的状态进程的标识、进程的优先级等。,本质上是向进程发送了一个编号为2的SIGINT信号,只不过这个信号是通过键盘输入的,然后经过操作系统处理后再发送给进程。的,如果进程对它们的子进程是否存在感兴趣,那么进程必须显式地捕获并处理该信号。

2024-10-10 16:58:27 1468

原创 【自用】王道强化存储系统串讲总结

基本分页存储管理(一般考二级页表)请求分页存储管理方向一:虚拟地址转换为物理地址的过程。方向二:通过物理地址访问cache的过程。

2024-10-10 15:37:15 995 1

原创 【笔记】数据结构

(1)算法思想:设要查找的数组中未出现的最小正整数为K。采用类似计数排序的思想,分配一个数组B[n],用来标记A中是否出现了1~n之间的正整数。否则,根据计数排序的思想将B[A[i] - 1]置为1。标记完毕,遍历数组B,查找第一个值为0的元素,其下标+1即为目标元素K;给定一个含n(n≥1)个整数的数组,请设计一个在时间上尽可能高效的算法,找出数组中未出现的最小正整数。例如,数组{-5, 3, 2, 3}中未出现的最小正整数是1;数组{1, 2, 3}中未出现的最小正整数是4。

2024-10-06 22:20:47 364

原创 【自用】王道文件管理强化笔记

系统运行过程中,如果要访问某个文件,则首先要找到这个文件对应的目录项,从目录项中找到文件的起始块号,再根据起始块号查FAT表,从而确认文件的后序那些块存放在哪里。:包含一些重要的文件系统管理信息,如:魔数(是用来告诉操作系统这个文件的类型的,魔数magic number是计算机(或者说是BIOS)用来判断此设备是否包含引导程序的),磁盘转速,磁道数,扇区数。”.“表示当前目录,”…表中每一项都包含了文件的各种信息,如文件的inode节点指针(指向内存中已读入的inode信息)、打开该文件的进程数等。

2024-10-06 18:47:17 834

原创 408笔记|随笔记录|自用|2|TLB与cache

参考@啊哈哈哈哈哈韩一、线性结构(一)顺序查找· 特点:按序依次查找。· 要求:顺序表和链表都适用,有序表和无序表都适用。· 平均查找长度(查找成功):ASL成功=(n+1)/2· 最大查找长度(查找失败):ASL失败=n+1(二)折半查找· 特点:查找区域不断二分,查找树是一棵二叉排序树。· 要求:有序顺序表。· 平均查找长度(查找成功):ASL成功=log2n1−1log2​n1−1· 最大查找长度(查找失败):ASL失败=树高=l。

2024-10-05 11:23:21 1474

原创 【笔记】I/O总结王道强化视频笔记

由于中断源4的优先级仍然高于当前正在处理的中断源2(但低于已经决定先响应的2,这里指的是在开启中断后的即时检测),且此时没有其他更高优先级的中断请求,因此CPU会立即转到中断源4的中断服务程序去执行。当CPU决定响应中断时,会执行一系列操作,包括关中断(以防止新的中断干扰当前中断处理)、保存断点(即保存下一条将要执行的指令的地址)和程序状态(如寄存器内容),然后识别中断源并跳转到相应的中断服务程序。在用户程序环境下,CPU才能够检测到中断源3发出的中断请求,并立即响应它,执行中断源3的中断服务程序。

2024-10-05 11:21:01 1998 2

原创 【笔记】选择题笔记408

无向图有16条边,其中度为4的顶点个数为3,度为3的顶点个数为4,其他顶点的度均小于3。图G所含的顶点个数至少是:11总度数=162=32度为2的顶点个数为x,度为1的顶点个数为y,度为0的顶点个数为z由此可列出三元一次方程组:34+43+2x+1y+0z=32化简得2x+y=8要使图G所含的顶点个数最少,则x=4此时顶点个数为3+4+4=11对角线以下元素均为0,表示该有向图是一个无环图,因此一定存在拓扑序列(可能不唯一)。

2024-10-03 20:59:58 854

原创 【数据结构笔记13】

视频参考,以下为视频的笔记。

2024-10-03 15:39:14 1131

原创 【笔记】选择题笔记+数据结构笔记

连通分量是极大连通子图一个连通图的生成树是一个极小连通子图。

2024-09-30 21:20:40 672

原创 【笔记】数据结构12

看到的社区的一个知识总结,这里记录一下。

2024-09-29 22:26:41 672

原创 【笔记】数据结构|链表算法总结|快慢指针场景和解决方案|链表归并算法和插入算法|2012 42

int val;// 辅助函数:创建链表(从前向后插入)// 辅助函数:打印链表// 辅助函数:释放链表内存(避免内存泄漏)

2024-09-26 22:16:01 906

原创 [笔记]数据结构

堆排序方法对于记录数较少的文件并不值得提倡,但对n较大的文件还是有效。最坏情况O(nlogn),仅需一个记录大小供交换用的辅助存储空间。方法一:利用快速排序进行划分。

2024-09-26 21:03:23 459

原创 【笔记】|【计算机组成原理】|408

DMA传送:预处理(占用CPU时间)、数据传送、后处理(占用CPU时间)不需要为每条虚电路预分配带宽。中断:1Byte1次中断。逻辑通路:并非直接相连。

2024-09-24 15:24:00 171

原创 408选择题笔记|自用|随笔记录

虚拟局域网(VLAN)定义:一种将局域网内的设备划分成与物理位置无关的逻辑组技术,以软件的方式(VLAN表)实现逻辑工作组的划分与管理,这些逻辑组有某些共同的需求,每个VLAN是一个单独的广播域/不同的子网;虚拟局域网出现原因:传统局域网的局限,(1)缺乏流量隔离;(2)用户管理不便;(3)路由器成本较高;实现技术:(1)基于接口的VLAN技术(常用);(2)基于MAC地址的VLAN技术;4.令牌环网特点:物理拓扑为星型,逻辑拓扑为环形;5.FDDI网。

2024-09-24 15:23:30 966

原创 数据结构10

假设该链表只给出了头指针list。在不改变链表的前提下,请设计一个尽可能高效的算法,查找链表中倒数第k个位置上的结点(k为正整数)。若查找成功,算法输出该结点的data域的值,并返回1;(3)根据设计思想和实现步骤,采用程序设计语言描述算法(使用C、C++或Java语言实现),关键之处请给出简要注释。这里需要注意一下递归出现的位置。(1)描述算法的基本设计思想。(2)描述算法的详细实现步骤。

2024-09-10 21:54:53 469 1

原创 【笔记】数据结构刷题09

【代码】【笔记】数据结构刷题09。

2024-09-07 21:34:13 436 1

原创 【00】408笔记

RIP 最大的跳数为15为主机配置地址:DHCPICMP报文传输方式:放在IP数据报的数据字段中传送CIDR技术的作用:是网络归并技术,把小的网络汇聚成大的超网,进而缓解了地址资源不足的问题IP首部字段,与分片和重组有关的是:片偏移,标志,标识普通IP首部长为20个字节,最长60字节转发分组过程中源mac和目的mac会变,考虑NAT涉及私有地址转换,源地址和目的地址改变。spooling 设备与输入输出井之间数据传输是由系统实现的。

2024-09-07 20:25:25 972

大学生入学需要的信息检索能力.doc

大学生入学需要的信息检索能力.doc

2024-10-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除