mahout 源码解析之聚类--聚类模型

本文主要探讨了Apache Mahout聚类模型的实现细节,重点关注Model、ClusterObservations和GaussianAccumulator。Model的抽象类AbstractCluster包含了关键的observe和computeParameters方法。ClusterObservations辅助类用于存储和更新组合状态及统计参数。而GaussianAccumulator接口提供样本集的统计信息更新。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

mahout聚类模型主要存在于包org.apache.mahout.clustering中,主要包含Model、ClusterObservations和GaussianAccumulator几部分。

一、Model

Model主要定义了以下几个函数:

	double pdf(O x);//计算x属于此模型的概率
	void observe(O x);//将加入此模型
	void observe(O x, double weight);//将带权重的x加入模型
	void observe(Model<O> x);//将模型加入模型
	void computeParameters();//计算参数,后面会讲,基本上是更新S0,S1,S2
	long getNumObservations();//获取此模型中样本个数,上一次更新参数到现在添加的样本数目
	long getTotalObservations();//获取样本总数
	Model<VectorWritable> sampleFromPosterior();//抽样
接口Cluster又继承了接口Model,在里面添加了几个属性和几个函数:

	String CLUSTERED_POINTS_DIR = "clusteredPoints";//所有样本点存放目录
	String INITIAL_CLUSTERS_DIR = "clusters-0";//初始簇存放目录
	String CLUSTERS_DIR = "clusters-";//每次迭代后的簇存放目录前缀
	String FINAL_ITERATION_SUFFIX = "-final";//最终的簇存放目录的后缀

	/**
	 * 簇编号
	 */
	int getId();

	/**
	 * 簇的中心
	 */
	Vector getCenter();

	/**
	 * 簇的半径
	 */
	Vector getRadius();

	/**
	 * 簇的描述
	 */
	String asFormatString(String[] bindings);

	/**
	 * 簇是否合并
	 */
	boolean isConverged();

抽象类AbstractCluster实现了接口Cluster,其中定义了一些变量:

	private int id;//簇编号

	private long numObservations;//此簇的样本数目

	private long totalObservations;//总共的样本数目

	private Vector center;//聚类中心

	private Vector radius;//聚类半径

	private double s0;//点的权重和

	private Vector s1;//点的加权和

	private Vector s2;//点的平方的加权和

此类中主要需要关注的是observe,不过无论其参数怎么变,目的就只有一个,进行S0,S1和S2的叠加。还有一个方法是computeParameters,其实就是更新一下S0,S1和S2。


二、ClusterObservations

ClusterObservations类为一个辅助类,记录了combinerState,S0,S1和S2几个参数,并提供了get*方法,对于combinerState还提供了incrementCombinerState方法,每次incrementCombinerState的值增加1。

	private int combinerState;//结合状态
	private double s0;//各个点权重之和
	private Vector s1;//各个点权重加权和
	private Vector s2;//各个点权重加权平方和


三、GaussianAccumulator

GaussianAccumulator接口定义了获取样本集一些统计信息的方法,大部分是get*方法,只有observe和compute是用来更新这些参数。

	/**
	 * 样本个数
	 * @return the number of observations
	 */
	double getN();

	/**
	 * 样本均值
	 * @return the mean of the observations
	 */
	Vector getMean();

	/**
	 * 样本标准差
	 * @return the std of the observations
	 */
	Vector getStd();

	/**
	 * 样本标准差的均值
	 * @return the average of the vector std elements
	 */
	double getAverageStd();

	/**
	 * 样本方差
	 * @return the variance of the observations
	 */
	Vector getVariance();

	/**
	 * Observe the vector
	 * 
	 * @param x
	 *            a Vector
	 * @param weight
	 *            the double observation weight (usually 1.0)
	 */
	void observe(Vector x, double weight);

	/**
	 * Compute the mean, variance and standard deviation
	 */
	void compute();

实现这个接口的是类RunningSumsGaussianAccumulator和类OnlineGaussianAccumulator,里面全部是一些数学计算,就不讲了。




电动汽车数据集:2025年3K+记录 真实电动汽车数据:特斯拉、宝马、日产车型,含2025年电池规格和销售数据 关于数据集 电动汽车数据集 这个合成数据集包含许多品牌和年份的电动汽车和插电式车型的记录,捕捉技术规格、性能、定价、制造来源、销售和安全相关属性。每一行代表由vehicle_ID标识的唯一车辆列表。 关键特性 覆盖范围:全球制造商和车型组合,包括纯电动汽车和插电式混合动力汽车。 范围:电池化学成分、容量、续航里程、充电标准和速度、价格、产地、自主水平、排放、安全等级、销售和保修。 时间跨度:模型跨度多年(包括传统和即将推出的)。 数据质量说明: 某些行可能缺少某些字段(空白)。 几个分类字段包含不同的、特定于供应商的值(例如,Charging_Type、Battery_Type)。 各列中的单位混合在一起;注意kWh、km、hr、USD、g/km和额定值。 列 列类型描述示例 Vehicle_ID整数每个车辆记录的唯一标识符。1 制造商分类汽车品牌或OEM。特斯拉 型号类别特定型号名称/变体。型号Y 与记录关联的年份整数模型。2024 电池_类型分类使用的电池化学/技术。磷酸铁锂 Battery_Capacity_kWh浮充电池标称容量,单位为千瓦时。75.0 Range_km整数表示充满电后的行驶里程(公里)。505 充电类型主要充电接口或功能。CCS、NACS、CHAdeMO、DCFC、V2G、V2H、V2L Charge_Time_hr浮动充电的大致时间(小时),上下文因充电方法而异。7.5 价格_USD浮动参考车辆价格(美元).85000.00 颜色类别主要外观颜色或饰面。午夜黑 制造国_制造类别车辆制造/组装的国家。美国 Autonomous_Level浮点自动化能力级别(例如0-5),可能包括子级别的小
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值