
hadoop
文章平均质量分 95
回炉重造P
自己觉得摇滚那就是摇滚
展开
-
分布式环境下的莎士比亚数据集处理
项目要求对莎士比亚语料库处理,输出统计数据:语料库中唯一(或不同)术语的数量语料库中以字母T / t开头的单词数出现少于5次的术语数量整体读取的文件数最常出现的5个术语及其词频实现思路统计唯一词汇数量利用mapper将分词结果转换为以单词为key的键值组合,之后会对每个相同key的组合执行一次reduce。在reducer中调用counter并增加值即可计算词汇数量。统计以字母T/t开头的单词数在mapper中每分出一个词,小写化后进行判断,t开头的情况下调用一次count原创 2021-07-12 10:29:48 · 1046 阅读 · 0 评论 -
基于MapReduce实现的Kmeans算法(非调库)
简单基于MapReduce实现了下KMeans。算法思路KMeans算法作为一种划分式的聚类算法,利用MapReduce进行实现的主要难点在于满足KMeans每次迭代划分过程的中间结果保存。因此利用HDFS进行中心点的存储,以实现各节点间的数据共享。基于MapReduce的KMeans算法流程如下:随机分配簇,初始化中心点,存入HDFS。Mapper中读取数据文件中的每条数据并与中心点进行距离计算,输出key为最近的中心点序号。Reducer中进行归并,计算新的中心点,存入新的中心文件。判原创 2021-07-11 23:27:00 · 4635 阅读 · 9 评论 -
基于mapreduce的DBSCAN算法实现
东拼西凑拿mapreduce实现了下DBSCAN,很多地方其实并没有很并行,密度聚类确实不太适合用MR来实现,写都写了整理一下。算法流程基于hadoop的MapReduce api实现的分布式DBSCAN算法。该算法实现流程分为七步:Similarity相似度计算部分,寻找满足阈值的点对组合。FindCore寻找核心点,找到满足最小邻域要求的核心点及其邻域信息。CoreList生成核心点列表。OnlyCore转换领域信息,将其变为只有核心点的组合。FirstCoreMerge按序排列,实现原创 2021-07-11 19:13:40 · 1330 阅读 · 2 评论