
大数据
SunWuKong_Hadoop
人和人之间的能力是在8小时之外拉开的。
Notoriously torture the data until it confessed
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
详解:大数据分析的学习之路
详解:大数据分析的学习之路以大数据分析师为目标,从数据分析基础、JAVA语言入门和linux操作系统入门知识学起,系统介绍Hadoop、HDFS、MapReduce和Hbase等理论知识和hadoop的生态环境 一、大数据分析的五个基本方面 1,可视化分析 大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视转载 2016-12-14 18:02:50 · 1938 阅读 · 0 评论 -
kerberos无密码登录
用到的命令如下:1、ktutil2、add_entry -password -p hadoop/admin@psy.com -k 3 -e aes256-cts-hmac-sha1-96解释:-k 指编号 -e指加密方式 -password 指使用密码的方式例子:add_entry -password -p host/admin@psy.com -k 1 -e aes256-cts-...转载 2018-11-07 16:01:36 · 3672 阅读 · 0 评论 -
Hive,Hbase,HDFS,MapReduce等之间的关系
Hive:Hive不支持更改数据的操作,Hive基于数据仓库,提供静态数据的动态查询。其使用类SQL语言,底层经过编译转为MapReduce程序,在Hadoop上运行,数据存储在HDFS上。HDFS:HDFS是GFS的一种实现,他的完整名字是分布式文件系统,类似于FAT32,NTFS,是一种文件格式,是底层的。Hive与Hbase的数据一般都存储在HDFS上。Hadoop HDFS...转载 2018-10-24 17:13:11 · 1527 阅读 · 0 评论 -
GemFire 入门篇2:GemFire 8.2 在CentOS & Mac OS X的安装步骤
GemFire 入门篇2:GemFire 8.2 在CentOS & Mac OS X的安装步骤GemFire目前已经开源,开源项目的主页:http://geode.incubator.apache.org/,商业版本的主页:https://pivotal.io/big-data/pivotal-gemfire,关于开源版本如何编译,以及与商业版本的区别(功能上有区别),我们以后再花时...转载 2017-01-06 12:04:46 · 694 阅读 · 0 评论 -
hadoop大数据工程师、数据开发工程师、数据仓库工程师 面试题目分享
仅限于工作年限1-3年 一、HIVE岗1.order by,distribute by,sortby的区别 点击打开链接2.内部表、外部表的区别及使用场景 点击打开链接3.讲一下hadoop生态圈的组件,说一下你对hadoop的认识程度(需要理解并背下来) 点击打开链接4.join需要注意的地方(hive查询中需要注意的地方及优化方法) 点击打开链接5.视图和表的区别 点...原创 2018-06-08 11:09:07 · 5663 阅读 · 9 评论 -
R语言和hadoop相亲相爱
Hadoop的家族如此之强大,为什么还要结合R语言?a. Hadoop家族的强大之处,在于对大数据的处理,让原来的不可能(TB,PB数据量计算),成为了可能。b. R语言的强大之处,在于统计分析,在没有Hadoop之前,我们对于大数据的处理,要取样本,假设检验,做回归,长久以来R语言都是统计学家专属的工具。c. 从a和b两点,我们可以看出,hadoop重点是全量数据分析,而R语言重点是样本数据分...转载 2018-04-19 17:04:31 · 325 阅读 · 0 评论 -
storm代码练习-transaction
package transaction1;import java.math.BigInteger;import java.util.HashMap;import java.util.Map;import org.apache.storm.coordination.BatchOutputCollector;import org.apache.storm.task.TopologyCon...原创 2018-03-27 15:29:46 · 213 阅读 · 0 评论 -
storm代码练习-split
代码持续更新中,虽然烂,但贵在积累package lesson;import java.util.Map;import org.apache.storm.task.TopologyContext;import org.apache.storm.topology.BasicOutputCollector;import org.apache.storm.topology.FailedExc...原创 2018-03-14 10:48:30 · 310 阅读 · 0 评论 -
storm代码练习-spout
代码持续更新中package lesson;import java.io.BufferedReader;import java.io.FileInputStream;import java.io.IOException;import java.io.InputStreamReader;import java.util.Map;import org.apache.storm.spou...原创 2018-03-14 10:47:09 · 338 阅读 · 0 评论 -
storm代码练习-bolt
后续会不断更新package lesson;import java.util.Map;import org.apache.storm.task.OutputCollector;import org.apache.storm.task.TopologyContext;import org.apache.storm.topology.IRichBolt;import org.apache...原创 2018-03-14 10:45:46 · 760 阅读 · 0 评论 -
storm代码练习-SumBolt
package WordCount;import java.util.HashMap;import java.util.Iterator;import java.util.Map;import org.apache.storm.task.TopologyContext;import org.apache.storm.topology.BasicOutputCollector;imp...原创 2018-03-22 14:15:20 · 275 阅读 · 0 评论 -
storm代码练习-WordcCounttTopology
package WordCount;import java.util.HashMap;import java.util.Map;import org.apache.storm.Config;import org.apache.storm.LocalCluster;import org.apache.storm.StormSubmitter;import org.apache.stor...原创 2018-03-22 14:14:37 · 235 阅读 · 0 评论 -
storm代码练习-mysplit
package WordCount;import java.util.Map;import org.apache.storm.task.TopologyContext;import org.apache.storm.topology.BasicOutputCollector;import org.apache.storm.topology.FailedException;import...原创 2018-03-22 14:13:30 · 217 阅读 · 0 评论 -
Datacleaner译文修改版目录
参考文档4.5版权©2008 - 2015本文档的副本可以供自己使用和分发给别人,只要你不收取任何费用(副本和进一步提供,每个副本包含版权声明,是否分布在打印或电子。表的内容即DataCleaner概论1。背景和概念数据质量(DQ)是什么?什么是数据分析?什么是数据存翻译 2017-08-01 10:56:44 · 1217 阅读 · 2 评论 -
记自己的工作心得
试用期还没结束原创 2017-03-01 15:15:42 · 471 阅读 · 0 评论 -
如何快速的看懂别人的代码
最近由于公司的一位前辈,由于家中之事欲走,所以接手了一个公司长期再做的项目,自己也略有了解,知道这个项目先后经过3人之手的煅炼,现在这个交接棒传到了我的手中,初见代码,头绪全无。。故此从网上学习如何快速的看懂别人的代码收获如下:1、阅读他人的代码就要阅读其中的精华,站在巨人的肩膀上,让自己成为巨人。2、不要消极的去阅读别人的代码,而是带着挖掘宝藏的精神去寻找别人的代码中精华的部转载 2017-03-01 15:14:51 · 18379 阅读 · 3 评论 -
Hadoop和大数据:60款顶级大数据开源工具
Hadoop和大数据:60款顶级大数据开源工具说到处理大数据的工具,普通的开源解决方案(尤其是Apache Hadoop)堪称中流砥柱。弗雷斯特调研公司的分析师Mike Gualtieri最近预测,在接下来几年,“100%的大公司”会采用Hadoop。Market Research的一份报告预测,到2011年,Hadoop市场会以58%的年复合增长率(CAGR)高速增长;到2020年,市场转载 2016-12-12 10:53:29 · 1827 阅读 · 0 评论 -
跟我一起学【Hadoop】之——经典场景分析
1.hive 切片表和历史分区表 查询效率的测试hive分区表陷阱(不load数据到hive,而是put数据到hdfs分区目录下,hive查不到数据)解决方法(msck repair table table_name;):https://yq.aliyun.com/articles/513814答案:分区表是hdfs上以文件夹的形式存在,为了提高查询效率。2.hive脚本定时执行的...原创 2019-09-10 14:47:29 · 1260 阅读 · 0 评论