- 博客(5)
- 资源 (13)
- 收藏
- 关注
原创 KNN算法mapreduce实现
KNN算法Mapreduce实现 目录 KNN算法Mapreduce实现 算法简介: mapreduce编程框架: 具体实现过程: 结果与分析 算法简介: 邻近算法,或者说K最近邻(kNN,k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。kNN算法的核心思...
2019-01-12 15:40:21
3768
2
原创 Mapreduce实现大数据集共现矩阵问题
目录 相关知识简介 共现矩阵的应用 Mapreduce 解决思路 实现细节 代码详解 对于小文件的处理 对于大文件的处理 结果与分析 相关知识简介 共现矩阵的应用 共现矩阵是许多语言模型中常用的技术之一,其主要应用于主题发现和解决词向量之间的相近关系的表示。假设现在有语料: “我爱吃西瓜” 和 “我喜欢吃西瓜” 分词得到 “我 爱 吃 西瓜” 、“我...
2019-06-17 08:36:21
991
1
原创 流数据处理Flume+Kafka的初步实现
目录 实验目的 实验内容 实验过程 Flume+kafka->storm(实时数据的处理结构) 配置storm和zookeeper 启动系统 在eclipse中运行拓扑 实验目的 通过虚拟机配置Flume及Kafka,掌握Storm获得实际数据源的配置方法。 通过虚拟机配置Kafka及编写kafkaSpout,掌握Storm获得实际数据源的配置方法。...
2019-06-14 08:36:46
621
原创 自动更新中科院的NLPIR/ICTCLAS分词系统证书
解决中科院的NLPIR/ICTCLAS分词系统证书过期问题 问题描述: 在使用中科院的NLPIR/ICTCLAS2016分词系统时时常会出现Cannot open Configure file 之类的问题,这是因为这个库将非商用期限设置为1个月,到期了就需要下载新的License。那么每次去github下载会非常麻烦,所以可以在使用这个工具之前,使用java自动检测并更新License呢...
2019-01-15 22:14:49
973
原创 nagios集成ganglia数据错误
错误提示:CHECKGANGLIA UNKNOWN: Error while getting value "Host/value not found" 求大神指点
2017-12-31 17:42:20
363
hadoop完全分布式集群搭建
2018-09-12
hadoop开发环境搭建
2018-09-12
hadoop mapreduce编程实战
2018-09-12
flume+kafka+storm最完整讲解
2018-09-12
mongodb高可用完全分布集群搭建
2018-09-12
storm流数据处理开发应用实战(linux实验环境,storm搭建完毕后的开发)
2019-06-20
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅