Top down clustering

最新推荐文章于 2024-12-10 05:08:34 发布

原创最新推荐文章于 2024-12-10 05:08:34 发布 · 1.3k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

mahout 专栏收录该内容

33 篇文章

订阅专栏

本文深入探讨了一种层次聚类算法——TopDown方法，解释了其原理及应用，特别关注了如何在TopLevel输出后进行PostProcessing处理，并详细介绍了用于处理输出数据的ClusterOutputPostProcessorDriver类。

部署运行你感兴趣的模型镜像

是一种层次聚类算法，先找到大的聚类，然后在大的聚类里边找小的聚类，所以名字叫top down

除了MinHash 聚类算法，其它聚类算法都可以用到top down的算法中，包括top level和bottom level

top level输出需要后处理，分成多组，这样bottom level聚类可以分别对每个组实施，对应的类是ClusterOutputPostProcessorDriver

聚类算法结束后，一般输出数据放置在两个目录：

clusteredPoints

clusters-0-final

这样的结果bottom level是没法处理的，ClusterOutputPostProcessorDriver以这两个目录为输入计算得到按聚类id分目录的分组

java api

run(Path input, Path output, boolean runSequential)

input：top level的输出目录，里边包含了clusteredPoints和clusters-0-final

output：后处理输出目录

runSequential：是否sequential处理，否的话会使用map-reduce

您可能感兴趣的与本文相关的镜像

Stable-Diffusion-3.5

Stable-Diffusion-3.5

图片生成

Stable-Diffusion

Stable Diffusion 3.5 (SD 3.5) 是由 Stability AI 推出的新一代文本到图像生成模型，相比 3.0 版本，它提升了图像质量、运行速度和硬件效率

博客等级

码龄25年

165
原创

72
点赞

42
收藏

66
粉丝

关注

私信

TA的精选

新阿里云添加swap
777 阅读
新 systemtap和火焰图（flamegraph）介绍
3873 阅读
热 mybatis绑定错误
168117 阅读
热 SecurityContextHolder.getContext().getAuthentication()为空的解决
37529 阅读
热 mybatis捕捉异常
15441 阅读

大家在看

C语言字符串反转实现详解 394

TA的历史创作历程

分类专栏

搜索 18篇
paoding-rose 1篇
网站开发 7篇
mahout 33篇
spring 75篇
hadoop 4篇
maven 1篇
scribe and thrift 1篇
数据挖掘和推荐 8篇
crawler 14篇
impala 1篇
hive 1篇
android 39篇

展开全部收起

上一篇：: lingo算法学习

下一篇：: minhash在mahout小实验

AI算力推荐

Stable-Diffusion-3.5

Stable Diffusion 3.5 (SD 3.5) 是由 Stability AI 推出的新一代文本到图像生成模型，相比 3.0 版本，它提升了图像质量、运行速度和硬件效率

图片生成

Stable-Diffusion

目录

展开全部

收起

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。