
大数据
文章平均质量分 54
hehuanlin123
这个作者很懒,什么都没留下…
展开
-
Hadoop大数据系列---MapReduce代码实战
1.初识Mapper+Reducer并行计算Mapentry:条目 (key-value)key:行号,0为基址K-V ——> map ——> K-Vshuffle:洗牌java项目:1.类库 2.配置文件 3.API2.编写Mapper类Reducerclass extends Reducer{原创 2017-02-26 21:55:31 · 473 阅读 · 0 评论 -
Hadoop大数据系列---概述
1.交通流量数据,气象云图数据,邮件网络数据,微博传输数据;2.互联网应用:移动互联网、社交网络、电子商务... 非互联网应用:医学、气象、传感器...3.搜索引擎、社交网络、电子商务、互联网电视、游戏、移动互联网4.爆发式增长:实时数据、非结构化数据、机器数据...5.社会化趋势:UGC(用户生成内容)、用户行为、用户关系、大量的碎片化的信息...6.大数据的特征:体原创 2017-02-27 16:30:55 · 343 阅读 · 0 评论 -
Hadoop集群的搭建
搭建6个节点的Hadoop集群节点在实验室192.168.100.20:8006,用户名:root,密码:**,申请了6个节点,分别是:192.168.101.44 #主节点192.168.101.45 #节点1192.168.101.46 #节点2192.168.101.47 #节点3192.168.101.48 #节点4192.168.1原创 2017-03-02 10:48:48 · 981 阅读 · 0 评论 -
Spark+Hadoop+Mahout大数据系列
大数据概述Hadoop大数据分析生态环境;数据分析与大数据分析:(1)描述性分析:平均值、标准差;同比、环比发展速度;分位数、众数;(2)数理统计分析:抽样估计;假设检验;方差分析;(3)数据挖掘方法:聚类分析; 分类分析(决策树、神经网络、支持向量机、随机森林);关联规则;协同过滤;(4)大数据分析:Hadoop(HDFS、mapreduce、hbase、mahout【聚原创 2017-03-03 07:51:12 · 2508 阅读 · 0 评论 -
Hadoop大数据系列---系列讲座
什么是机器智能世界新技术的三个趋势:云计算+移动互联网+大数据(正在进行时)机器智能(现在时)IT+生物医疗(未来时)原创 2017-03-03 07:51:31 · 425 阅读 · 0 评论 -
Hadoop大数据系列---Hadoop安装与环境配置
1.数据量进制;存储:分割、运算;原创 2017-03-03 07:52:17 · 318 阅读 · 0 评论 -
Hadoop性能调优与运维
Hadoop集群的搭建流式访问数据一次写入,多次读取默认数据块是64M;元数据:镜像文件+日志文件;用户数据;主从节点的通信是用TCP协议进行通信;作业;任务;键值对;tasktracker和jobtracker之间的通信与任务分配是通过心跳机制来完成的;原创 2017-03-07 21:53:16 · 464 阅读 · 0 评论 -
Hadoop用户行为分析项目
原创 2017-03-13 14:54:10 · 2181 阅读 · 0 评论 -
当今世界最NB的25位大数据科学家
当今世界最NB的25位大数据科学家引言 在大数据技术飞速发展的今天,谁才是我们大数据科研与工业界中最有威望的科学家呢?下面我们来进行梳理,共罗列了25位当今世界,无论是在学术与工业界都产生巨大影响的数据科学家(Data Scientists)。他(她)们推动了整个领域的发展,毫无疑问,无论是在学术界还是还工业界,他(她)们都是一座座山头式的人物。他(她)们是我们这些从事大数据原创 2017-03-20 16:18:44 · 1191 阅读 · 0 评论 -
Hadoop大数据系列之一---Hadoop架构原理分析
1.单节点体系2.集群结构分析3.HDFS架构分析Hadoop分布式文件系统;按需定制MapReduce;目标在于多次的文件流读取;写入成本很高;高度数据冗余(副本,默认3);每个节点不需要RAID-独立磁盘冗余阵列:redundant array of independent disks;Blocksize较大(128m);定制节点的位置感原创 2017-02-26 17:52:47 · 697 阅读 · 0 评论