学过概率统计的人因该都听过大数定律:简单点说Xi是随机数,i=1,....,n。EX是他们的期望,当n-->无穷的时候,T({Xi | |Xi-EX| < a}---> 1
对于他我也是在学概率时候学的,可是平时思考问题时候也重没有仔细考虑过它。
直到..我的直觉预测和测试结果不同时候,我才恍然大悟。
比如离散的聚类问题,初始点值我们都是随机的生成,
当然这个点是高维的,如果有几百个属性,每个属性点取值都是均匀分布的。要用k-means算法把他们聚成K,起初直觉告诉我,都是均匀分布... 每类中的元素数应该相同, 可是结果不是这样,在某类中聚集了比其他类多的多的元素。(点的数目,和类的数目,还有每点的属性个数都很大的时候这才很明显)
发现(EX,...... ,EX)为中心的类中的点最多....
这是符合大数定律的。
在这里还要说明Xi, i=1....n
每个Xi都符合(0,1)上均匀分布,
sum(Xi) 再不是均匀的了.......那会是什么样的我也不知道了。
( 有些细节问题就不能说了, 有限制 呵呵)