深入浅出Hadoop Mahout数据挖掘实战(算法分析、项目实战、中文分词技术)

给各位网友分享一套课程,有兴趣的可以加我 2748165793 
    课程分类:Greenplum
    适合人群:高级
    课时数量:17课时
    更新程度:完成
    服务类型:C类(普通服务类课程)
    用到技术:MapReduce并行分词程序 Mahout
    涉及项目:Hadoop综合实战-文本挖掘项目 Mahout数据挖掘工具
随着云计算、大数据迅速发展,亟需用hadoop解决大数据量高并发访问的瓶颈。谷歌、淘宝、百度、京东
等底层都应用hadoop。越来越多的企 业急需引入hadoop技术人才。由于掌握Hadoop技术
的开发人员并不多,直接导致了这几年hadoop技术的薪水远高于JavaEE及 Android程序员。

Hadoop入门薪资已经达到了 8K 以上,工作1年可达到 1.2W 以上,具有2-3年工作经验的hadoop人才年薪可以达到 30万—50万 。

一般需要大数据处理的公司基本上都是大公司,所以学习hadoop技术也是进大公司的捷径!

中关村被称为中国硅谷,这里有着一群被外界称之为程序员的IT从业者。

但是一眼望去,大多数一线程序员的年龄均在20至30岁左右,40、50岁的人在这个行业内颇为罕见。

为什么在国内没有“老”程序员,而在国外五六十岁仍奋斗在一线岗位的程序员比比皆是?造成这种现象的原因是多方面的。

课程大纲

Mahout数据挖掘工具(10课时)

数据挖掘概念、系统组成

数据挖掘常用方法及算法(回归分析、分类、聚类等)

数据挖掘分析工具

Mahout支持的算法

Mahout起源和特点

Mahout安装、配置及测试

实战:Mahout K-means聚类分析

Mahout实现Canopy算法

Mahout实现分类算法

实战:Mahout逻辑回归分类预测

实战:Mahout朴素贝叶斯分类

推荐系统的概念及分类

协同过滤推荐算法概念、分类及应用

实战:实现基于Mahout的电影推荐系统

Hadoop综合实战-文本挖掘项目(7课时)

文本挖掘的概念及应用场景

项目背景

项目流程

中文分词技术

庖丁分词器的使用

MapReduce并行分词程序的设计与实现

Pig划分数据集

Mahout构建朴素贝叶斯文本分类器

模型应用-计算用户偏好类别