- 博客(5)
- 收藏
- 关注
原创 Hadoop - reduce任务的数量
reduce任务的数量并非由输入数据的大小决定,而是特别指定的。如有多个reduce任务,则每个map任务都会对其输出进行分区(partition),即为每个reduce任务建一个分区。每个分区由许多键(及其对应值),但每个键对应的 键/值对 记录都在同一个分区中。分区由用户定义的分区函数控制,但通常用默认的分区器(partitioner,也称为“分区函数”)通过哈希函数来分区,这种方法很高效。...
2018-03-13 19:47:09
1038
原创 数据库 - 关系的完整性
关系模型中有三类完整性的约束:实体完整性(entity integrity)、参照完整性(referential integrity)和用户定义的完整性(user-defined integrity)。实体完整性和参照完整性是关系模型必须满足的完整性约束条件,被称作是关系的两个不变性,由关系系统自动支持。用户定义的完整性是应用领域需要遵循的约束条件,体现了具体领域中的语义约束。实体完整性规则:若属...
2018-03-11 23:00:03
364
原创 数据库 - 关系数据模型
关系可以有三种类型:基本类型(基本表或者基表)、查询表和视图表基本类型具有以下6条性质: 1.列是同质的(homogeneous),即每一列中的分量是同一类型的数据,来自同一个域; 2.不同的列可出自同一个域,称其中的每一列为一个属性,不同的属性要给予不同的属性名。当两种不同的属性的值取自同一个域时,要赋予属性不同的属性名; 3.列的顺序无所谓; 4.任意两个元组的候选码不...
2018-03-11 22:47:01
433
原创 聚类学习笔记 - 聚类数据的表示
在Mahout中,向量被实现为三个不同的类: 1.DenseVector(密集向量):double型数据,其大小为数据中的特征个数。不管数组的元素值是否为0,数组中的所有元素都被与预先分配了空间。 2.RandomAccessSparseVector(稀疏向量):实现为integer型和double型之间的一个HashMap,只有非零元素被分配空间。 3.SequentialAc...
2018-03-08 11:39:18
453
原创 聚类学习笔记 - 聚类的基本概念
簇:对于一个X-Y平面,簇的中心点(centroid),或平均值(average),为这个簇中所有点的x和y坐标值的平均值对于文档集聚类涉及三件事: 1.一个算法:将项目组织在一起的方法 2.相似性和不相似性的概念:对项目按一定的标准分成不同的堆 3.停止的条件:一个关键节点,项目不能再加入堆,或者这些堆已经具有明显不同的主题TF-IDF(Term Frequency - Inv...
2018-03-07 15:31:52
286
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人