- 博客(397)
- 收藏
- 关注
原创 RAG检索 - FAISS(Facebook AI Similarity Search)
FAISS 是 RAG 检索环节的 “工业级标准工具”,其核心价值在于用成熟的索引结构和工程化优化解决了大规模高维向量检索的 “速度 - 精度 - 扩展性” 难题,是构建生产级 RAG 系统的首选向量检索方案。
2025-11-18 01:09:04
854
原创 RAG向量索引 - QALSH(Query-Aware Locality-Sensitive Hashing)查询感知的局部敏感哈希
QALSH是局部敏感哈希(LSH)算法的优化变体,专门用于高维空间的近似最近邻搜索(ANN)检索环节作为 RAG 的核心环节之一,常需对向量化后的文本块执行高维向量的相似性搜索QALSH 用于该环节以提升检索效率RAG 的检索环节会先将文本块和用户查询语句都转换为高维向量,再在向量数据库中搜索与查询向量相似的文本向量随着知识库扩大,高维向量规模会急剧增加,传统精确最近邻搜索会面临计算量大、检索速度慢的问题。
2025-11-18 00:13:33
386
原创 RAG向量索引-HNSW Hierarchical Navigable Small World 介绍
HNSW,Hierarchical Navigable Small World,分层导航小世界网络目前 RAG、推荐系统、图像检索等场景中最常用的 近似最近邻(ANN)向量索引算法 之一核心优势是「检索速度极快 + 精度高」,能高效支撑百万级~亿级高维向量的快速检索也是很多向量数据库(如 Milvus、Weaviate、Pinecone)的默认推荐索引分等级的,等级制度的Navigable可航行的;可驾驶的;适于航行的。
2025-11-16 23:26:22
897
原创 RAG 场景中常用的向量索引
RAG 中最常用的向量索引集中在「IVF 系列(IVF_FLAT/IVF_PQ)、HNSW、ANNOY 树索引」—— 前两者是企业级 RAG 的主流选择(适配大规模、低延迟、混合检索),后者是入门级首选(轻量易部署)。如果需要支持多模态或精准过滤,优先用 Milvus 搭载 HNSW/IVF_PQ 索引,直接实现 “向量相似度 + 元数据过滤 + 多模态兼容” 的全需求。
2025-11-16 23:13:01
733
原创 Milvus-云原生和分布式的开源向量数据库-介绍
官方定义:一款专为高维向量设计的开源向量数据库,支持近似最近邻(ANN)检索和精确检索,提供高吞吐、低延迟的向量查询服务核心目标:解决「亿级高维向量的快速检索 + 企业级稳定性」问题比如 RAG 场景中,当知识库规模达到 10 亿级文档片段(对应 10 亿级向量),且需要支持每秒数千次查询(QPS)时,ANNOY、单机 FAISS 无法承载,而 Milvus 通过分布式架构可轻松应对关键标签:开源、云原生、分布式、多模态支持(不仅支持文本向量,还支持图像、音频等向量)、企业级高可用。
2025-11-16 22:15:51
890
原创 ANN 近似最近邻检索(Approximate Nearest Neighbor)介绍
ANN:是 RAG 检索环节的「核心技术思想」(近似最近邻检索),解决了海量高维向量的快速匹配问题ANNOY:是 ANN 思想的「轻量级实现工具」,由 Spotify 开源,适配 RAG 的中小规模场景,特点是快速、易部署、低成本ANNOY 是 ANN 的 “子集”,是 RAG 中实现高效检索的「入门级首选工具」,更大规模场景可替换为 FAISS、Milvus 等。
2025-11-16 17:39:31
965
原创 ReALM(Retrieval-Augmented Language Model)介绍
ReALM 是 RAG 技术的「进阶形态」,核心价值是通过「检索与生成的深度融合」让语言模型既能利用外部知识库的「新鲜、精准、专属知识」,又能保持生成的流畅性和逻辑性完美解决了传统大模型的知识局限和早期 RAG 的架构缺陷成为当前企业级 AI 应用(如智能问答、知识库管理)的主流技术方案之一。
2025-11-16 16:47:01
798
原创 BBPE 分词- Byte-level Byte Pair Encoding 概述
vocabularyn.(某人掌握或使用的)全部词汇;(某一语言的)词汇;(某个学科的)专业词汇,术语;(尤指外语教科书中的)词汇表;(美术、音乐等领域的)表现形式,表达手段未登录词(OOV,Out-Of-Vocabulary)指的是在模型预先构建的词表中不存在的词,这些词无法被现有词表直接匹配,导致分词或理解困难。就是模型 “不认识” 的词,常见于处理新词、专业术语、拼写错误等场景。无论是基于 “完整词” 的词表,还是基于 “子词” 的词表,只要某个词(或子词组合)未被收录,就属于 OOV。
2025-11-04 00:23:03
750
原创 Qwen2.5-Omni、TMRoPE-Time Aligned Rotary Positional Embedding 概念
AI 模型直接接收原始语音信号作为输入,无需人工拆分 “语音转文字(ASR)→ 文本理解 → 指令执行 → 文字转语音(TTS)” 等独立步骤通过统一的端到端架构完成 “听懂指令→理解意图→执行任务→生成响应” 全流程的核心能力模型能像人类对话一样,直接 “听” 懂语音指令并精准完成任务,无需中间环节的人工干预或模块拼接区别于传统语音交互的关键。
2025-11-02 17:27:33
711
原创 spark-SQL学习
假设 join_df 存储的是 “用户提交的问卷答案”,其中 answers 字段是一个嵌套列表(如 [{“question_id”: 1, “answer”: “A”}, {“question_id”: 2, “answer”: “B”}]),而目标是将每个问题的答案拆分为单独一行,存入 Hive 表。将 DataFrame 转换为 RDD(弹性分布式数据集),此时 RDD 的每个元素是 Row 对象(对应 DataFrame 中的一行数据)
2025-11-01 23:56:40
1085
原创 NLP中两种经典的静态词嵌入Word2Vec和GloVe简介
随着 BERT 等预训练语言模型(动态嵌入,可处理多义词)的兴起,静态嵌入的应用场景有所减少两者的思想(如上下文关联、统计规律)仍深刻影响着现代 NLP 模型的设计一句话总结 Word2Vec 训练 W 的逻辑先给 W 填随机数,然后让模型 “用中心词猜上下文”;猜不准就根据误差,微调 W 中每个词的向量;猜得越来越准的过程中,W 自然变成了 “语义相关的词向量离得近,无关的离得远” 的词嵌入表。
2025-10-31 13:05:45
1004
原创 Context Engineering概述
Tobi Lütke(托比・卢克)1980 年(另有 1981 年出生的记载)出生于西德科布伦茨,拥有德国和加拿大双重国籍,是全球知名电商平台 Shopify 的联合创始人兼 CEO,同时也是技术创新者、赛车手和投资人。Andrej Karpathy(安德烈・卡帕西)1986 年 10 月出生,斯洛文尼亚裔加拿大籍,是神经网络与计算机视觉专家,在人工智能领域的学术研究、产业应用和教育普及均有深远影响,被马斯克视为 “全球顶级 AI 领袖” 人选之一。
2025-10-29 19:37:39
878
原创 CNN(卷积神经网络)和 RNN(循环神经网络)
CNN 是 “空间特征提取器”:适合处理图像、视频等具有局部空间相关性的数据,通过卷积和池化高效提取层次化特征RNN 是 “时序记忆器”:适合处理文本、语音等序列数据,通过循环连接捕捉时序依赖,记住前序信息实际应用两者可结合(如视频分析:用 CNN 提取每一帧的图像特征,再用 RNN 处理帧序列的时序关系)是指卷积核在输入张量上每次操作时所覆盖的局部区域它是 CNN 高效提取局部特征的核心机制,类比于生物视觉系统中单个神经元仅对视野中局部区域刺激产生反应的特性。
2025-10-28 20:48:55
1094
原创 TensorFlow入门学习二
深度学习中,Tensor(张量)的激活函数是一类作用于张量数据的非线性函数,用于给神经网络引入非线性特性。它们通常应用在神经网络层的输出张量上,通过对张量中的每个元素进行逐元素运算,改变张量的数值分布,从而让模型能够学习和表达复杂的非线性关系核心作用:神经网络的基本计算(如矩阵乘法、卷积)本质上是线性操作。如果没有激活函数,无论网络有多少层,最终输出仍是输入的线性组合,无法拟合现实世界中复杂的非线性数据(如图像、语言、声音等)。激活函数通过引入非线性,使得神经网络能够逼近任意复杂的函数。
2025-10-26 22:46:19
578
原创 TensorFlow学习入门
TensorFlow 的历程本质是 “技术适配需求” 的演进:从内部工具 DistBelief 满足 Google 自身大规模训练需求,到 1.x 系列以静态图占领工业级市场,再到 2.x 系列以动态图转型应对科研用户需求,最终形成 “科研 - 生产 - 端侧” 全场景覆盖的生态体系其核心竞争力始终围绕 “兼容性(多平台、多硬件)、效率(分布式、性能优化)、易用性(API 统一、调试友好)” 三大维度,成为 AI 技术从实验室走向产业落地的关键基础设施。
2025-10-26 20:49:24
817
原创 github.com/mark3labs/mcp-go库学习
seamless integration 无缝集成标准的;标准化的;定型的;使合乎标准;按标准校准;制定标准sort of 有点sort of like 有点像otherwise 否则。
2025-10-26 00:35:56
647
原创 图像处理~多尺度边缘检测算法
差量算子是边缘检测的基础工具,通过计算像素间的灰度差来识别图像中的边缘(灰度变化剧烈的区域)核心定义:差量算子是一个 “模板”(如 Roberts、Sobel 算子),通过对图像像素进行局部差分运算,输出像素的灰度变化强度。
2025-10-19 21:05:34
764
原创 图像的离散傅里叶变换DFT
这说明:假设f(x,y)是一幅图像,在原点的傅里叶变换等于图像的平均灰度级(M*N是总的像素点,f(x,y)是(x,y)点的灰度值,将所有的像素点的灰度值求和然后除以总的个数即为平均灰度值)对图像而言,图像的边缘部分是突变部分,变化较快,因此反应在频域上是高频分量;高频成分:对应图像中快速变化的区域(如物体边缘、纹理细节、噪声),表现为频谱图中远离中心的部分。因此,频率的大小反应了信号的变化快慢。低频成分:对应图像中缓慢变化的区域(如大片的天空、光滑的墙面),表现为频谱图中靠近中心的部分。
2025-10-19 00:00:38
414
原创 图像的脉冲噪声和中值滤波
单极脉冲噪声和双极脉冲噪声是图像中两种最常见的脉冲噪声差异在于噪声像素的灰度值偏离方向,前者只向 “极亮” 或 “极暗” 一方向偏移,后者同时向 “极亮” 和 “极暗” 两方向偏移。
2025-10-18 23:13:26
528
原创 膨胀算法去除低谷噪声
低谷噪声是暗部的杂色 / 颗粒(像素值低),高峰噪声是亮部的杂色 / 颗粒(像素值高),而膨胀的核心是 “取结构元素覆盖区域的最大值”,这个运算逻辑对两种噪声的作用完全相反。当结构元素覆盖暗部区域时,若区域内有正常的亮像素(前景),最大值运算会优先保留亮像素的高值,将周围的低像素值噪点 “拉高”,填补暗部的细小孔洞或杂色;例如,黑色背景上有零星的灰色低谷噪声,用小结构元素膨胀时,若背景中存在亮的前景边缘,膨胀会让亮边缘 “覆盖” 掉附近的灰色噪点,使暗部更纯净。膨胀为何对高峰噪声无效?
2025-10-18 00:01:41
192
原创 图像处理之膨胀
腐蚀使目标区域范围“变小”,其实质造成图像的边界收缩,可以用来消除小且无意义的目标物膨胀使目标区域范围“变大”,将目标区域接触的背景点合并到该目标物中,使目标边界向外部扩张。可以用来填补目标区域中某些空洞以及消除包含在目标区域中的小颗粒噪声理解腐蚀的公式和腐蚀的实现理解膨胀的公式和膨胀的实现。
2025-10-17 23:55:05
312
原创 图像处理之腐蚀算法-收缩&去噪
腐蚀是常见的形态学操作之一,它通过从图像边界中去除像素来精细地缩小图像中的对象。它通过考虑每个像素的邻域并将其值设置为该邻域中所有像素中的最小值来实现这一点。在二进制图像中,如果任何相邻像素的值为0,则输出像素也设置为0灰度图像腐蚀运算的核心原理:灰度腐蚀是对图像中每个像素,用结构元素(类似 “模板”)覆盖该像素邻域后计算 “图像邻域值 减去 结构元素对应值” 的最小值将这个最小值作为该像素的腐蚀后结果。
2025-10-17 22:49:51
349
原创 python的解包操作
Row 类:通常指 PySpark 中的 pyspark.sql.Row 或 Pandas 中的类似结构,用于表示一行结构化数据(类似数据库中的 “记录”),包含多个字段(键)和对应的值。的效果:当字典 row_dict 的键是字段名、值是对应数据时,通过解包可以直接创建一个 Row 对象,字典的键会成为 Row 的字段名,值会成为对应字段的值。:是 Python 的字典解包语法,作用是将字典 row_dict 中的键值对 “拆包” 为关键字参数(key=value 形式)。)),尤其适合字段较多的场景。
2025-10-14 20:25:46
250
原创 图像去雾之 Retinex 算法
Retinex是一个合成词,它的构成是retina(视网膜)+ cortex(皮层)→ Retinexμ 读作 “缪”(miù,音同 “谬”),是希腊字母 “mu” 的音译,常用于表示均值(如高斯分布的均值)σ 读作 “西格玛”(xī gé mǎ),是希腊字母 “sigma” 的音译,常用于表示标准差(如高斯分布的标准差)
2025-10-12 22:15:15
803
原创 直方图均衡化-去雾学习1
直方图均衡化(Histogram Equalization) :通过将原始图像的直方图变换为均匀分布的直方图,从而增加图像的全局对比度直方图均衡化去雾是基于图像灰度分布优化和大气散射模型简化假设的去雾方法,核心逻辑是通过调整雾天图像的灰度直方图,增强对比度以削弱雾的 “灰度压缩” 效应。局部直方图均衡化(Local Histogram Equalization) :在图像的不同区域应用不同的均衡化处理,用于增强局部对比度,适用于图像局部过暗或过亮的情况。
2025-10-10 11:23:30
164
原创 欧式距离和余弦距离
它通过向量的模长和点积来表示两个向量之间的欧式距离,核心是利用向量运算的余弦定理展开:这种推导方式把欧式距离和向量的几何属性(模长、夹角)关联起来,更清晰地体现了它的几何意义 ——两个向量在空间中的直线距离,是欧式距离定义在向量运算场景下的严谨表达。
2025-10-09 09:18:44
516
原创 K-means损失函数-收敛证明
损失函数(Loss Function) 是机器学习和优化领域的核心工具,用于量化模型预测结果与真实结果的 “差异程度”,是指导模型迭代优化的 “指南针”。定义:损失函数是一个数学函数,输入为 “模型预测值” 和 “真实标签(或目标值)”,输出为一个标量数值,该数值越大表示 “预测与真实的差异越大”,模型性能越差。核心作用:为模型优化提供方向—— 通过最小化损失函数,让模型的预测尽可能接近真实结果,从而提升泛化能力。关键特性总结单调性:预测与真实的差异越大,损失函数值越大。
2025-10-08 14:58:42
533
原创 机器学习-K-means
n个牧师去城市布道,随意选择n个布道点,并把这n个点公告诉所有村民每个村民选择到离自己家最近的布道点去听课,听课后,有的人会觉得距离太远于是每个牧师统计自己课上所有村民的地址,然后搬到这些地址的中心地带,并把新的步道点告诉所有村名每个村民选择到离自己家最近的布道点去听课(比如之前去牧师A处,现在发现去牧师B处更近)牧师每次课后都会更新位置,村民根据情况选择布道点,最终经历若干礼拜后,布道点终于稳定下来。
2025-10-08 13:50:15
912
原创 借助智能体编写高效的智能体工具 - Writing effective tools for agents — with agents
2025 年 09 月 11 日 00:00:00 Anthropic 工程团队。
2025-09-28 01:04:30
878
原创 MLLM~M3-Agent 智能问答检索部分
文本向量的核心价值是将语言信息数字化,便于机器理解和处理。智能搜索(语义匹配)内容推荐(兴趣匹配)对话记忆(上下文检索)文本聚类(主题发现)情感识别(情绪分析)这些技术在大模型、知识库、推荐系统中非常关键。这三种模式用于将多个文本向量聚合为一个统一向量,便于后续计算相似度或分类求和:强化累积语义最大值:突出关键特征平均:平衡整体语义。
2025-09-14 19:57:31
630
原创 MLLM学习~M3-Agent Prompt学习
输入→处理→输出→评估” 全流程Prompt 并非孤立存在,形成了完整的视频理解链路:视频原始数据(语音 / 图像)→ 模块 1(提取语音 + 绑定人物 ID)→ 模块 2(生成情景记忆描述)→ 模块 3(生成语义记忆推理)→ 模块 4(基于记忆问答 / 检索)→ 模块 5(评估结果质量)→ 模块 6(优化结果格式)
2025-09-13 23:36:02
765
原创 MLLM学习~M3-Agent如何处理视频:视频clip提取、音频提取、抽帧提取和人脸提取
FFmpeg 是一套功能极强的跨平台音视频处理工具集,几乎涵盖了音视频编解码、转换、剪辑、封装、流媒体传输等所有核心环节,被广泛应用于专业软件(如 Adobe 系列、剪映)、服务器流媒体服务(如直播平台)、嵌入式设备(如监控摄像头)等场景,是音视频领域的 “基础设施级” 工具。FFmpeg 是音视频领域的 “瑞士军刀”—— 它不提供图形界面(需通过命令行或二次开发使用),但胜在功能全面、性能高效、兼容性极强无论是个人轻量化处理,还是企业级专业应用,FFmpeg 都是不可或缺的核心工具。
2025-09-13 18:17:57
1210
原创 binlog 的事件类型
11 QUERY:SQL 查询(事务 begin/commit)1 UNKNOWN:未知或未定义事件。12 CDATABASE:创建数据库。13 DDATABASE:删除数据库。14 TRUNCATE:清空表数据。5 RENAME:重命名表/库。2 INSERT:新增记录。3 UPDATE:更新记录。4 DELETE:删除记录。6 ALTER:修改表结构。7 CINDEX:创建索引。8 DINDEX:删除索引。10 DTABLE:删除表。9 CTABLE:创建表。
2025-09-11 23:51:10
195
原创 一种具备长期记忆的多模态智能体
与传统 “单轮检索增强生成(RAG)”[20](将记忆一次性加载到上下文)不同,M3-Agent 通过强化学习实现多轮迭代记忆检索—— 例如,面对 “Alice 喜欢什么饮品” 的指令,智能体会先检索 “Alice 的身份标识(<face_0 > 对应 < voice_3>)”,再基于该标识检索相关偏好知识,最终生成答案。本文提出 M3-Agent—— 一种具备长期记忆的多模态智能体框架,通过 “实体中心多模态记忆” 与 “强化学习多轮推理”,实现了接近人类的记忆与推理能力;对照物,明显不同的事物;
2025-09-10 01:31:27
698
原创 Multimodal Agent with Long-Term Memory: M3-Agent 简介
M3-Agent: 具备长期记忆的多模态智能体本文介绍了一种具有(equipped with)长时记忆功能的新型(novel)多模式agent框架M3-Agent。像人类一样,M3-Agent可以处理实时的视觉(visual)和听觉(auditory)输入,以建立和更新其长期记忆。除了情景记忆(episodic memory),它还发展语义记忆(semantic memory),使其能够随着时间的推移积累世界知识。
2025-09-09 13:55:35
1063
原创 什么是 scalability - 可扩展性
可扩展性;可伸缩性;可量测性Scalability(可扩展性) 是衡量系统、架构或流程在 需求增长(如用户量、数据量、业务负载增加)时,能否高效、低成本地提升性能或容量,且不显著影响现有服务质量的核心能力。简单来说,就是系统 “撑得住增长” 且 “撑得优雅” 的能力,是分布式系统、互联网服务、企业架构设计中至关重要的指标。
2025-09-09 12:11:21
924
原创 Elasticsearch 的 translog
translog 是 ES 保障数据持久性的 “核心保险”通过 “顺序写日志” 的方式,解决 Lucene 内存缓冲 “性能高但易失” 的问题,同时支持故障恢复和分片同步理解 translog 的工作机制和配置,能帮助开发者在 “写入性能” 和 “数据安全性” 之间找到平衡,优化 ES 集群的稳定性。
2025-09-07 19:13:03
635
原创 大模型Chain-of-Thought~CoT提高LLM对复杂推理问题的解决能力
CoT思维链是一种引导AI模型解决复杂问题的推理方法,核心是让模型像人类一样分步骤思考,而非直接输出结果,减少跳跃性错误通过将问题拆解为多个中间推理步骤(例如“先计算A,再分析B,最后得出C”),模型能清晰地处理数学题、逻辑推理等需要多步分析的任务问题:3人3天喝3桶水,9人9天喝几桶?回答:3人1天喝1桶 → 1人1天喝1/3桶水->1人9天喝3桶 → 9人9天喝27桶通过在输入文本中引入一系列中间推理步骤,引导语言模型逐步进行思考和推理,从而得出最终答案。
2025-09-06 00:19:00
1013
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅