机器学习笔记：聚类算法

聚类算法概览

最新推荐文章于 2025-09-24 23:05:12 发布

原创最新推荐文章于 2025-09-24 23:05:12 发布 · 452 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习

机器学习专栏收录该内容

8 篇文章

订阅专栏

思想：将数据集划分为若干不相交子集（称为簇）。但算法并不会告诉你每个簇是什么意思，需要自行解释。

作用：
探索性分析方法，用来分析数据的内在特点，寻找数据的分布规律。
作为分类的预处理，对待分类的对象进行聚类，然后对聚类出的结果的每一簇上，进行分类。

有效性指标：
外部指标：由聚类结果与某个参考模型进行比较得出；Jaccard系数、FM指数、Rand指数、ARI指数
内部指标：直接由考察聚类结果而得到。DB指数、Dunn指数

距离度量：
聚类需要借助距离的远近，评价样本的相似性，因此如何度量距离影响聚类结果。
常见的利用欧式距离、曼哈顿距离。

基本算法：KMEANS
在这里插入图片描述

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

DataAnalysts

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Dify知识库文档批量下载神器：一键导出所有文件到本地

羊城迷鹿的博客

07-07

2266

在使用Dify进行知识库管理的过程中，我们经常遇到一个实际问题：如何将已上传到知识库中的文档批量下载到本地？目前Dify的管理界面虽然功能强大，但暂时没有提供直接的UI界面来批量导出或下载知识库内的文档。这意味着如果我们需要将知识库中的文件备份到本地或进行离线处理，只能通过API接口来实现。本文将详细介绍如何利用Dify的REST API构建一个完整的知识库文档下载解决方案，这也是目前实现知识库文件批量下载到本地的唯一可行路径。🎉进入大模型应用与实战专栏 | 🚀查看更多专栏内容首先，我们需要在Dify的

[Dify] 向知识库添加文档的 3 种方式对比：适用场景与优劣分析

最新发布

技术就是小甜甜博客

09-27

385

Dify知识库内容导入方式对比：1）Web页面上传适合测试阶段和静态文档，操作简单但无法自动更新；2）API接口上传适合系统集成和动态内容，支持自动化但需开发能力；3）外部集成同步（如Notion、GitHub）适合生产环境，实现自动同步但配置复杂。三种方式可根据业务阶段和需求灵活组合使用，建议初期手动测试后逐步转向自动化方案，同时注意检查文档分段效果。

参与评论您还未登录，请先登录后发表或查看评论

DeepSeek本地RAG知识库(28):数据分段策略/标准/父子/问答

2401_84380512的博客

04-10

1939

通过LLM为每段文本生成问答对（Q&A pairs），检索时匹配用户问题与预生成的相似问题，返回对应答案段落。在RAG系统中，分段策略是平衡语义精度与计算效率的关键枢纽，主要围绕RAG（检索增强生成）模块设计，针对不同场景需求选择合适的分块方式和索引模式。通过灵活组合分块策略与索引模式，能够覆盖从低成本快速响应到高精度复杂检索的全场景需求，大家可根据具体业务需求选择最优方案。最近很多朋友反应，对数据分段的策略和方式还是不太清楚，今天我们这一期就专门来说说Dify里面的几种分段方式和对应的场景。

【部署】读取excel批量导入dify的QA知识库

u010593516的专栏

05-17

1542

本文描述一个读取excel文件批量导入dify知识库QA分段的解决方案

【Dify技术应用】-如何对上传文件进行分段设置和优化

吾非技道之翘楚，唯好研索之学人耳。此处所录，或为既往所历之困厄，或为解厄寻途之思绎，亦有学而随记之零散笺注 —— 犹整理书斋，将诸般识见渐次厘剔，使各归其序。若此些微碎语，能助同路求索之君，实乃吾之幸事！诚邀共论，相携精进，不亦乐乎？

09-08

850

摘要： 知识库文件分段优化需根据文件类型、内容特点及模型能力调整参数。核心参数包括分段标识符（如\n\n）、最大长度（1024字符）、重叠长度（50字符）和预处理规则（如清理冗余格式）。技术文档建议1200字符最大长度和100字符重叠，博客建议1500字符和50字符重叠，FAQ文档建议800字符并启用Q&A分段。通过预览块测试和实际问答验证，可迭代优化参数，确保分段精准度和信息完整性，提升知识库问答效果。

主流ai知识库工具FastGPT、Dify、Coze横评

热门推荐

weixin_69464412的博客

06-28

5万+

FastGPTFastGPT 是环界云计算公司旗下一个基于 LLM 大语言模型的知识库问答系统，提供开箱即用的数据处理、模型调用等能力。同时可以通过 Flow 可视化进行工作流编排，从而实现复杂的问答场景！DifyDify 是苏州语灵人工智能科技公司的一款开源的大语言模型(LLM)应用开发平台。它融合了后端即服务（Backend as Service）和 LLMOps 的理念，使开发者可以快速搭建生产级的生成式 AI 应用。即使你是非技术人员，也能参与到 AI 应用的定义和数据运营过程中。Coze。

Q: dify的QA分段方式，question、answer和keywords哪些内容进入向量库呢？

u010593516的专栏

06-10

836

Dify的QA分段处理方式是将question和keywords内容进行向量化存储。根据相关实现逻辑，分段信息保存在特定URL路径下，通过datasets_segments.py中的DatasetDocumentSegmentUpdateApi接口处理更新操作。该方案明确了哪些数据进入向量库，但不包含answer内容。

Dify学习笔记-知识库(六)

大数据知识梳理

01-25

2万+

Dify学习笔记-知识库

[Dify] 实现“多知识库切换”功能的最佳实践

技术就是小甜甜博客

09-15

229

知识库切换是提升AI问答系统精准度的关键技术。本文介绍了Dify平台实现多知识库切换的三种方式：静态配置、元数据过滤和动态切换，分析了各自的优缺点。最佳实践建议包括：合理分库设计、意图分类、主库优先检索等。文章还提供了示例工作流程和注意事项，帮助构建更智能、精准的知识驱动型问答系统。通过合理切换知识库，可显著提升回答相关性和系统性能。

AI产品经理面试宝典第94天：RAG知识库构建与预处理策略面试指南

打造全国最全的AI Agent开发知识领域的博客

09-18

149

本文深入解析RAG知识库构建的核心挑战与预处理策略，涵盖文档格式转换、问答对生成及自动化测试全流程，为AI产品经理提供面试必备的实战方法论与避坑指南，助你精准应对技术深度类问题。

Dify 1.9.0 Knowledge Pipeline深度解析：让RAG知识处理像搭积木一样简单

weixin_41246802的博客

09-24

1434

摘要：Dify 1.9.0推出革命性KnowledgePipeline（知识管道），彻底重构RAG知识处理架构。核心亮点包括可视化节点编排、多源数据融合、图像智能提取和Q&A感知分块四大创新功能，解决了传统RAG系统在数据集成、信息丢失和分块策略上的痛点。系统提供7个专业模板，覆盖从Office文档转换到复杂PDF处理等场景，处理速度提升200%，检索准确率提高23%。通过模块化节点设计和多模态处理能力，KnowledgePipeline让企业级知识处理变得简单高效，实现从"能用&quot

部署Dify遇到的相关问题及解决方案+部署+配置

前沿技术分享，人工智能、大模型技术分享，日常问题记录

03-28

5518

部署Dify遇到的相关问题及解决方案+部署+配置

fastgpt、dify功能分析比较

龙井茶的Sky

04-22

1万+

现在都开始AI应用开发，何谓AI应用，起码要和AI大模型结合，应用表现形式多是对话类，当然也可以是后台调用openapi的生成式。最典型的AI应用即最早一批的chat类应用，封装个Prompt实现助手类chat。但是AI大模型能力再强，还是存在短板的。比如功能缺失，不能进行网页检索、不能直接查询天气、甚至不能进行代码运行。再比如，知识缺失，没有大模型训练截止日期之后的知识、没有私有知识。

开启智能体和知识库探索之旅：Dify知识库搭建RAG

瓦罗兰特顶级C位的博客

05-13

1406

当下让大模型掌握企业的知识和流程，成为企业AI应用的首选，今天我们介绍一下用Dify搭建一个简单RAG知识库，基于Prompts+ Embedding+Rerank混合方案，实现更高准确率。

【DeepSeek R1构建本地RAG知识库】dify数据分段策略

少说，多做

07-01

565

摘要：检索增强生成（RAG）技术结合大语言模型与外部知识库，提升回答准确性。文本分段策略（Chunking）是关键，影响检索效果。Dify平台提供多种分段方式：普通分块：固定长度分割，灵活性高但可能割裂语义；问答分块：生成问答对精准匹配，适合FAQ但成本较高；父子层级分块：保留文档结构，适合法律合同等场景；全文分块：保留全文内容，适合文章参考但检索效率低。不同策略适用于不同需求，开发者需权衡语义连贯性与检索效率。通过优化分段策略，可显著提升RAG系统的性能与实用性。

Dify中创建知识库操作和实现过程

NLP工程化

07-15

6588

方式一：先创建知识库，然后上传文件；方式二：直接上传文件，然后创建默认知识库。

AI 知识库对比：Dify 还是 FastGPT

2401_85375186的博客

10-08

5166

从效果上来看，FastGPT 的知识库检索是强于 Dify 的，但是这并不代表 Dify 就不如 FastGPT：首先，在知识库创建上，FastGPT 在「Web 站点同步」和「外部文件库」这两个功能上是收费的，就算是本地部署也是收费的，而 Dify 则是免费的；其次，个人感觉 Dify 的部署到使用，是比较简单的，而且交互体验和 UI 上也优于 FastGPT开源版本的 FastGPT 的知识库限制为 30个，应用限制为 500 个；而 Dify 的社区版没有这些限制Dify 中提供了。

dify知识库权限

05-08

### 配置与管理 Dify 知识库权限在 Dify 中，可以通过多种方式实现对知识库的访问权限控制。以下是具体的配置方法以及相关细节： #### 1. 基于角色的权限分配为了更好地管理不同用户的访问权限，可以在 Dify 平台中引入基于角色的角色权限模型。管理员可以定义不同的角色（如管理员、编辑者、查看者等），并为这些角色赋予特定的操作权限[^1]。 - **操作流程** 登录到 Dify 的后台管理系统后，导航至“用户与角色”模块，在该模块下创建新的角色，并为其指定可执行的具体动作（如读取、写入或删除知识库中的内容）。完成角色设定之后，将对应的角色绑定给目标用户组或者单个用户账户即可生效。 - **代码示例** 下面是一个简单的 API 调用示例，用于通过编程的方式批量更新用户角色关联关系： ```python import requests url = "https://your-dify-instance.com/api/roles" headers = {"Authorization": "Bearer YOUR_ACCESS_TOKEN"} payload = { "role_name": "editor", "users_to_add": ["user_id_1", "user_id_2"], "knowledge_base_ids": ["kb_id_1"] } response = requests.post(url, json=payload, headers=headers) if response.status_code == 200: print("Role assignment successful.") else: print(f"Error assigning role: {response.text}") ``` #### 2. 利用元数据进行细粒度管控除了基本的角色划分外，还可以借助元数据进一步增强权限管理能力。例如，针对某些特殊字段（像部门归属、机密等级等）制定规则，从而确保只有满足条件的人群才能接触到相关内容[^2]。 - **实际应用场景描述** 当某位来自市场团队成员请求关于内部活动安排的信息时，系统会自动过滤掉那些标记有高安全级别的条目；反之亦然——对于拥有高级别授权的技术人员，则允许其获取更广泛的数据集合。 - **注意事项** - 定义清晰合理的标签体系至关重要； - 应定期审查现有分类标准及其适用范围，必要时作出调整优化。 --- ### 总结说明综上所述，无论是采用基础版的角色驱动型策略还是进阶式的属性导向机制都能有效达成预期效果即合理约束各类主体接触企业核心资产的机会窗口大小进而保障整体信息安全水平处于可控状态之中。