hadoop
爱吃枇杷的松鼠
hadoop NLP java python AI
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
KNN算法mapreduce实现
KNN算法Mapreduce实现 目录 KNN算法Mapreduce实现 算法简介: mapreduce编程框架: 具体实现过程: 结果与分析 算法简介: 邻近算法,或者说K最近邻(kNN,k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。kNN算法的核心思...原创 2019-01-12 15:40:21 · 3768 阅读 · 2 评论 -
流数据处理Flume+Kafka的初步实现
目录 实验目的 实验内容 实验过程 Flume+kafka->storm(实时数据的处理结构) 配置storm和zookeeper 启动系统 在eclipse中运行拓扑 实验目的 通过虚拟机配置Flume及Kafka,掌握Storm获得实际数据源的配置方法。 通过虚拟机配置Kafka及编写kafkaSpout,掌握Storm获得实际数据源的配置方法。...原创 2019-06-14 08:36:46 · 621 阅读 · 0 评论 -
Mapreduce实现大数据集共现矩阵问题
目录 相关知识简介 共现矩阵的应用 Mapreduce 解决思路 实现细节 代码详解 对于小文件的处理 对于大文件的处理 结果与分析 相关知识简介 共现矩阵的应用 共现矩阵是许多语言模型中常用的技术之一,其主要应用于主题发现和解决词向量之间的相近关系的表示。假设现在有语料: “我爱吃西瓜” 和 “我喜欢吃西瓜” 分词得到 “我 爱 吃 西瓜” 、“我...原创 2019-06-17 08:36:21 · 991 阅读 · 1 评论
分享