- 博客(157)
- 资源 (119)
- 收藏
- 关注
原创 【DeepSeek R1构建本地RAG知识库】Embedding模型原理详解
当我们利用检索增强生成(RAG)技术构建本地知识库时,Embedding模型就像是这个知识宝库的智能化导航系统,它能够帮助我们迅速且精准地定位到所需的信息。对于刚刚涉足这一领域的初学者而言,可能会对Embedding模型的本质及其在本地知识库中的功能感到困惑。近期关于本地知识库的课程中,不少学习者也表达了相似的疑问。接下来,我们将采用简单明了的语言,并结合实际案例,深入讨论这些问题,同时也会介绍如何整理本地的知识素材,以便让基于本地RAG的问题回答变得更加精确和全面。
2025-04-04 21:56:46
3
原创 xxx.app 已损坏,无法打开,你应该将它移到废纸篓/打不开 xxx,因为它来自身份不明的开发者解决方法
刚用 macOS 的小伙伴或者在更新某个系统版本后运行 App 会提示提示【xxx已损坏,无法打开,你应该将它移到废纸篓解决办法】、【打不开 xxx,因为它来自身份不明的开发者】,【打不开xxxx,因为 Apple 无法检查其是否包含恶意软件】下面小编就教大家如何修复。
2025-04-04 19:58:06
285
原创 【Langchain构建Deepseek RAG知识库】Weaviate集成与知识库导入(最新版本)
随着数据量的不断增长,传统的搜索方法已无法满足用户对精准信息的需求。RAG作为一种新兴的信息检索方式,通过结合深度学习模型的生成能力与精确的信息检索技术,提供了一种全新的解决方案。而Weaviate作为一个高性能的向量搜索引擎,能够高效地存储和查询大规模的数据集,非常适合与RAG架构集成。为了便于处理和优化存储,我们首先需要定义一个文本分割器,用于将大段落的文本切割成更小的部分。这有助于提高后续步骤中生成嵌入向量的精度和效率。
2025-03-18 17:22:06
40
1
原创 【Langchain构建Deepseek RAG知识库】文本切割器详解
在构建基于RAG(Retrieval-Augmented Generation)的知识库系统时,文本切割器(Text Splitter)的质量直接影响检索效果和生成性能。本文以DeepSeek技术文档知识库构建为例,深入解析文本切割器的关键技术要点。
2025-03-04 14:22:37
69
1
原创 【DeepSeek R1构建本地RAG知识库】Dify调优优化
在AI技术快速迭代的当下,检索增强生成(RAG)已成为解决大模型幻觉、知识更新滞后等痛点的核心方案。DeepSeek R1作为国产高性能开源大模型,结合Dify这一低代码AI应用开发平台,能够快速搭建安全可控的本地化知识库系统。本文将从零开始,详解如何通过DeepSeek R1实现本地知识检索增强,并借助Dify的灵活配置完成Prompt工程优化、响应质量调优及系统性能提升。
2025-02-27 11:27:06
909
原创 AI大模型学习大纲:从基础到前沿
随着人工智能(AI)技术的迅猛发展,特别是大规模预训练模型(如BERT、GPT系列等)在自然语言处理(NLP)、计算机视觉和其他领域的广泛应用,对这些大模型的理解和掌握变得越来越重要。为了帮助初学者以及有经验的专业人士系统地学习和深入理解这一领域,我们设计了一份详尽的AI大模型学习大纲学习目标传统AI算法:为深入理解大模型打下坚实的理论基础和实践技能。机器学习相关:不仅增强了解决实际问题的能力,还为掌握最前沿技术做好了准备。
2025-02-26 18:14:52
142
原创 GitHub、Huggingface加速神器—Watt Toolkit(原steam++)安装与使用
当代码自由遇上网络屏障——开发者如何优雅"破壁"?在深夜的IDE前,你第一百次点击GitHub的绿色克隆按钮,进度条却像被施了冻结咒般纹丝不动;当你满怀期待地尝试从Huggingface拉取最新的大语言模型,终端里滚动的红色报错却让心脏跟着漏跳一拍——这不是某个程序员的噩梦,而是国内开发者每天都要面对的残酷现实。全球化的代码世界本应没有边界,但现实的网络屏障却在Git仓库与Transformer模型之间筑起无形高墙。
2025-02-19 09:16:36
1607
原创 【DeepSeek R1构建本地RAG知识库】向量库选型对比(Pinecone、Milvus、Chroma、Weaviate、Faiss、Qdrant)
在当今的数字世界中,向量数据库已经成为了存储和检索各种数据(无论是结构化的还是非结构化的)的首选工具。这些数据被转化为所谓的向量嵌入,由特定的模型生成。在开发利用深度学习,尤其是涉及到庞大的语言模型的应用程序时,向量存储起到了无可替代的作用。我们生活的世界中,数据往往是复杂且无规则的,不是所有信息都能简单地适应传统的行列模式。特别是当我们处理图像、视频和自然语言这样的复杂非结构化数据时,向量数据库就显得尤为重要了。向量数据库,顾名思义,它以高维向量的形式存储数据。
2025-02-18 11:07:15
1735
原创 【DeepSeek R1构建本地RAG知识库】应用框架选型对比(MaxKB、Dify、FastGPT、RagFlow、Anything-LLM)
在人工智能技术加速渗透各行各业的今天,检索增强生成(Retrieval-Augmented Generation, RAG)技术正以破竹之势重塑知识管理范式。相较于传统大模型"黑箱式"的知识调用,RAG通过将私有数据与生成模型深度耦合,在保障数据主权的同时实现了精准可控的知识输出,这一特性使得企业级用户对本地化RAG解决方案的需求呈现爆发式增长。面对琳琅满目的RAG框架选型,开发者往往陷入"选择困难症"的泥淖:MaxKB标榜的零代码可视化部署是否真能实现开箱即用?
2025-02-17 12:51:02
2182
原创 【DeepSeek R1构建本地RAG知识库】部署推理的工具框架选型(Xinference和Ollama)
在当前快速发展的AI领域,选择合适的部署推理工具或框架对于项目的成功至关重要。今天,我们将比较两个热门的选择——Xinference和Ollama,帮助你在构建或优化自己的AI应用时做出明智的决定。Xinference是一个性能强大且功能全面的分布式推理框架,它支持多种类型的模型(如大语言模型、语音识别模型、多模态模型等),并能够满足不同场景下的需求。广泛的模型支持:无论是大型语言模型还是复杂的多模态模型,Xinference都能轻松处理。
2025-02-13 11:51:14
1028
原创 【DeepSeek R1构建本地RAG知识库】向量(Embedding)模型选型
检索增强生成(RAG)是生成式 AI 中的一类应用,支持使用自己的数据来增强 LLM 模型的知识。RAG 通常会用到三种不同的AI模型,即 Embedding 模型、Rerankear模型以及大语言模型。本文将介绍如何根据您的数据类型以及语言或特定领域选择合适的 Embedding 模型。用一句话解释Embedding的本质“Embedding是将文本(词、句、段落)映射到高维稠密向量的技术,其核心是将语义信息编码为计算机可计算的数学表示。
2025-02-12 13:42:38
2312
原创 SpringBoot项目Jar包加密,防止反编译
许多项目要求部署到其他公司的服务器上,但是又不想将源码泄露出去。要求对正式环境的启动包进行安全性处理,防止客户直接通过反编译工具将代码反编译出来。
2024-06-23 22:02:37
1556
3
原创 minio数据迁移工具rclone使用
Rclone是一个命令行程序,用于管理云存储上的文件。它是云供应商的web存储接口的一个功能丰富的替代品。超过40种云存储产品支持rclone,包括S3对象存储、企业和消费者文件存储服务以及标准传输协议。Rclone具有与unix命令rsync、cp、mv、mount、ls、ncdu、tree、rm和cat相同的强大的云版本。Rclone熟悉的语法包括shell管道支持和——dry-run保护。它可在命令行、脚本中或通过其API使用。
2024-03-18 14:57:28
2231
3
原创 dolphinschedule3.2单机部署
JDK:下载JDK (1.8+),安装并配置 JAVA_HOME 环境变量,并将其下的 bin 目录追加到 PATH 环境变量中。如果你的环境中已存在,可以跳过这步。二进制包:在下载页面下载 DolphinScheduler 二进制包。
2024-01-31 16:54:47
919
原创 IntelliJ IDEA好用的插件
在开发过程中,一个好用的插件可以大大提高我们的工作效率。今天,我想向大家介绍一些在IntelliJ IDEA中非常好用的插件。这些插件可以帮助我们更快地完成代码编写、调试和版本控制等任务,从而提高我们的开发效率。
2024-01-31 16:50:44
620
原创 kafka3.6单机部署
部署Kafka之前,我们需要了解其背景和意义。Kafka是一个开源的分布式流处理平台,主要用于构建实时数据流管道和应用。它可以处理高速数据流,并支持发布和订阅模式。Kafka广泛应用于日志收集、流处理、消息队列等领域,具有高吞吐量、可扩展性、可靠性和容错性等优点。随着大数据和云计算技术的发展,数据量呈爆炸式增长,传统的数据处理方式已经无法满足需求。Kafka的出现为大数据处理带来了新的解决方案,它能够快速处理海量数据,提供实时的数据流服务。因此,部署Kafka对于企业来说具有重要的意义。
2024-01-31 16:37:09
862
原创 Doris数仓开发规范
2.没有办法分区的,数据又较快增长的,没办法按照时间动态分区,可以适当放大一下你的bucket数量,按照你的数据保存周期(180天)数据总量,来估算你的bucket数量应该是多少,建议还是单个bucket大小在1-3G。建议的方式是 1 FE(Follower) + 多个 OBserver(FE)方式,读写分析,所有的写连接 Follower,所有的读连接Observer。1.分桶字段注意事项:这个一般是数据分布比较均衡的,也是经常使用的字段,最好是高基数字段。
2024-01-03 15:02:59
1608
原创 flinkcdc踩坑指南
Flink CDC 常用两种方式进行数据的全量+增量一体的数据同步,数据清洗等功能。使用 DataStream API 进行任务的逻辑实现使用 Flink SQL 的方式进行任务的提交。
2023-10-12 09:23:33
1799
1
原创 flink1.17部署模式和部署方法
Apache Flink是一个框架和分布式处理引擎,用于对无边界和有边界的数据流进行有状态的计算。Flink被设计为可以在所有常见集群环境中运行,并能以内存速度和任意规模执行计算。目前市场上主流的流式计算框架有Apache Storm、Spark Streaming、Apache Flink等,但能够同时支持低延迟、高吞吐、Exactly-Once(收到的消息仅处理一次)的框架只有Apache Flink。
2023-10-10 15:29:28
2455
原创 linux单机部署kafka
Kafka是一个分布式的流处理平台。kafka主要是作为一个分布式的、可分区的、具有副本数的日志服务系性、高容错性、访问速度快、分布式等特性;统, 具有高水平扩展主要应用场景是:日志收集系统和分布式发布–订阅消息系统.
2023-10-09 09:33:10
476
原创 【腾讯云Cloud Studio实战训练营】使用React快速构建点餐H5
随着云计算产业的发展,各种基于云端的 IDE 相继出现。相比于传统的 IDE,云端 IDE 可以更大程度的提升用户工作的效率。云 IDE Cloud Studio 作为腾讯云出品的一款在线云端开发工具,它可以帮助用户减少安装 IDE 的成本,提供在线代码开发、编译、运行、存储的一站式服务。下面我们以“云端开发”为主题,聚焦使用 Cloud Studio 进行编程学习、技术开发等多维度研发体验与探索,实现为公司和团队进行降本增效。本篇也将带大家快速构建React点餐H5页面。
2023-08-04 19:01:29
5552
55
原创 Doris单机安装部署
Apache Doris 是一个基于 MPP 架构的高性能、实时的分析型数据库,以极速易用的特点被人们所熟知,仅需亚秒级响应时间即可返回海量数据下的查询结果,不仅可以支持高并发的点查询场景,也能支持高吞吐的复杂分析场景。基于此,Apache Doris 能够较好的满足报表分析、即席查询、统一数仓构建、数据湖联邦查询加速等使用场景,用户可以在此之上构建用户行为分析、AB 实验平台、日志检索分析、用户画像分析、订单分析等应用。
2023-07-12 16:16:00
4915
3
原创 【腾讯云 Finops Crane 集训营】降本增效利器Crane应用实战
FinOps(Financial Operations)是一种管理云计算成本的方法,它强调将云计算资源的成本与使用情况及业务需求相匹配,从而提高企业的效率和效益。在当前云计算环境下,FinOps已经成为了越来越多企业的管理方法。本文将会介绍Crane这个云计算成本管理工具,并详细介绍如何在实际应用中使用Crane进行云计算资源成本管理。经过一段时间的试用,说一下我对Finops Crane的个人看法。
2023-05-09 18:26:46
7040
130
原创 深入理解设计模式-模板方法模式
定义一个操作中的算法骨架,而将算法的一些步骤延迟到子类中,使得子类可以不改变该算法结构的情况下重定义该算法的某些特定步骤。
2023-04-27 10:25:51
5640
15
原创 深入理解设计模式-适配器模式
将一个类的接口,转换成客户期望的另一个接口。适配器让原来接口不谦容的类可以合作无间。Target(目标抽象类): 目标抽象类定义客户所需接口,可以是一个抽象类或接口,也可以是具体类Adaptee(适配者类): 适配者即被适配的角色,它定义了一个已经存在的接口,这个接口需要适配,适配者类一般是一个具体类,包含了客户希望使用的业务方法,在某些情况下可能没有适配者类的源代码。
2023-04-24 16:52:10
5917
原创 Keepalived+LVS(DR模式)安装部署实战详细教程
Keepalived 的设计目的是构建高可用的LVS负载均衡群集,可以调用ipvsadm工具来创建虚拟服务器,管理服务器池,而不仅仅用作双机热备。使用Keepalived 构建LVS群集更加简便易用,主要优势体现在:对LVS负载均衡调度器实现热备切换,提高可用性;对服务器池中的节点进行健康检查,自动移除失效节点,恢复后再重新加入。
2023-03-16 14:32:11
6423
原创 kubekey安装k8s集群详细手册
KubeKey是go语言开发的一款云原生容器工具,使用 KubeKe可以轻松、高效、灵活地单独或整体安装 Kubernetes 和 KubeSphere。本节我们体验一下使用KubeKey一键式部署一个k8s集群。
2023-03-14 19:28:38
6330
原创 K8S 问题与解决方案汇总
pod中配置了多种环境变量,均无法查询到,起初以为"小数点."是特殊符号无法命名,后来发现我在k8s中设置的变量只注入到了bash shell 中,却没有注入到sh shell里,但是通常情况下,我们的/bin/sh 只是一个指向/bin/bash的软连接,不应该出现不一致的情况。但是我登陆容器之后通过 ls -lh /bin/sh 命令发现,容器中的 /bin/sh 实际指向的却是dash shell。
2023-03-09 09:16:24
5625
1
原创 nginx安装lua、jwt模块,通过lua验证jwt实现蓝绿发布样例
例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。
2023-02-27 16:07:46
6328
2
原创 docker安装nacos2.2详细手册
Nacos是SpringCloudAlibaba架构中最重要的组件。Nacos 是一个更易于帮助构建云原生应用的动态服务发现、配置和服务管理平台,提供注册中心、配置中心和动态 DNS 服务三大功能。能够无缝对接Springcloud、Spring、Dubbo等流行框架nacos支持AP和CP的模式切换,默认为AP模式, eureka仅支持AP模式,zookeeper仅支持CP模式。
2023-02-17 09:35:28
8825
1
原创 Harbor安装部署实战详细手册
Harbor是一个用于存储和分发Docker镜像的企业级Registry服务器,通过添加一些企业必需的功能特性,例如安全、标识和管理等,扩展了开源Docker Distribution。作为一个企业级私有Registry服务器,Harbor提供了更好的性能和安全。提升用户使用Registry构建和运行环境传输镜像的效率。Harbor支持安装在多个Registry节点的镜像资源复制,镜像全部保存在私有Registry中, 确保数据和知识产权在公司内部网络中管控。
2023-02-15 11:54:27
17924
8
原创 jvm堆外内存排查详解
内存泄漏想必大家并不陌生,对于jvm的内存泄漏,有很多排查手段和方便的排查工具,例如MAL,但是对于非jvm的内存,如直接内存的使用,排查起来较为麻烦,下面介绍一下相关的排查手段。
2023-01-31 15:21:16
12439
原创 java 零拷贝详细讲解
零拷贝(英语: Zero-copy) 技术是指计算机执行操作时,CPU不需要先将数据从某处内存复制到另一个特定区域。这种技术通常用于通过网络传输文件时节省CPU周期和内存带宽。Linux提供的领拷贝技术 Java并不是全支持,支持2种(内存映射mmap、sendfile)。
2023-01-03 15:37:13
9092
2
原创 K8S 数据存储详细讲解
NFS是一个网络文件存储系统,可以搭建一台NFS服务器,然后将Pod中的存储直接连接到NFS系统上,这样的话,无论Pod在节点上怎么转移,只要Node跟NFS的对接没问题,数据就可以成功访问。当存储资源使用完毕后,用户可以删除PVC,与该PVC绑定的PV将会被标记为“已释放”,但还不能立刻与其他PVC进行绑定。HostPath可以解决数据持久化的问题,但是一旦Node节点故障了,Pod如果转移到了别的节点,又会出现问题了,此时需要准备单独的网络存储系统,比较常用的用NFS、CIFS。
2022-12-30 15:26:35
6562
原创 K8S Service详细讲解
在kubernetes中,pod是应用程序的载体,我们可以通过pod的ip来访问应用程序,但是pod的ip地址不是固定的,这也就意味着不方便直接采用pod的ip对服务进行访问。为了解决这个问题,kubernetes提供了Service资源,Service会对提供同一个服务的多个pod进行聚合,并且提供一个统一的入口地址。通过访问Service的入口地址就能访问到后面的pod服务。Service在很多情况下只是一个概念,真正起作用的其实是kube-proxy服务进程,每个Node节点上都运行着一个kube
2022-12-06 11:05:56
5644
原创 K8S Pod控制器详细讲解
Pod是kubernetes的最小管理单元,在kubernetes中,按照pod的创建方式可以将其分为两类:Pod控制器:Pod控制器是管理pod的中间层,使用Pod控制器之后,只需要告诉Pod控制器,想要多少个什么样的Pod就可以了,它会创建出满足条件的Pod并确保每一个Pod资源处于用户期望的目标状态。如果Pod资源在运行中出现故障,它会基于指定策略重新编排Pod。在kubernetes中,有很多类型的pod控制器,每种都有自己的适合的场景,常见的有下面这些:ReplicaSet的主要作用是保证一
2022-12-06 09:41:50
5594
AI机器学习13天零基础入门视频教程
2025-02-18
人工智能实战项目-AI在线医生视频教程
2025-02-18
人工智能实战项目-智慧交通视频教程
2025-02-18
大数据技术之Apache Paimon
2024-07-24
kubekey-k8s-1.23.7安装包
2023-03-14
nginx、lua、jwt安装包及蓝绿发布代码
2023-02-28
java日志框架视频教程
2022-11-28
Java进阶教程Java设计模式(图解+框架源码分析+实战)视频教程
2022-11-28
9天快速掌握java基础视频教程
2022-11-28
Java数据结构与算法视频教程
2022-11-28
JUC并发编程视频教程
2022-11-28
Vue.js快速入门视频教程
2022-11-25
Elastic-Job分布式任务调度视频教程
2022-11-25
深入解析docker容器化技术视频教程
2022-11-25
容器集群管理系统K8S从入门到精通视频教程
2022-11-25
大数据技术之HadoopHA视频教程
2022-07-08
大数据技术之DolphinScheduler2.x视频教程
2022-07-08
大数据技术之ClickHouse视频教程
2022-07-08
大数据技术之Maxwell视频教程
2022-07-08
大数据技术之Azkaban3.X视频教程
2022-07-08
大数据技术之Canal视频教程
2022-07-08
大数据技术之Atlas视频教程
2022-07-08
大数据技术之Superset视频教程
2022-07-08
大数据技术之Kylin视频教程
2022-07-08
大数据监控告警系统(Prometheus)视频教程
2022-07-08
大数据技术之Flink CDC视频教程
2022-07-08
全面讲解开源数据库中间件MyCat使用及原理视频教程
2022-06-09
Java进阶SSO单点登录技术CAS-快速上手与原理探究视频教程
2022-06-09
Java物联网开发“尚方宝剑”之EMQ视频教程
2022-06-09
基于AWS云平台大规模集群千亿数据调优方案视频教程
2022-06-09
大数据Redis系统视频教程
2022-06-09
Spark从零到精通完整版视频教程
2022-05-09
spark3.x从零到精通视频教程
2022-05-09
Jenkins从环境配置到项目开发视频教程
2022-05-09
轻松入门Apollo分布式配置中心-服务中间件视频教程
2022-05-09
最全Flume视频教程,大数据入门必学
2022-05-09
服务网格化Service Mesh入门到精通视频教程
2022-05-09
高可用的并发解决方案nginx+keepalived视频教程
2022-05-09
分布式系统架构解决方案之Dubbo视频教程
2022-05-09
k8s pod访问集群node网络不通
2023-03-13
TA创建的收藏夹 TA关注的收藏夹
TA关注的人