
Hadoop
Bryan__
17年硕士毕业入职腾讯,工作4年晋升至T11
研究生期间多次参加国内外数据挖掘竞赛,累计获得10次top3;
ijcai-2017冠军,kddcup-2017季军,ijcai-2018亚军;
工作方向:大规模搜索推荐,算法与架构开发
展开
-
在eclipse下运行hadoop程序
环境:Ubuntu安装在虚拟机,hadoop安装在Ubuntu,eclipse安装在win7下,这样eclipse就不会太卡。 1、复制对应版本hadoop的eclipse插件jar包,比如我的hadoop是0.21.0版本,就使用hadoop-0.21.0-eclipse-plugin.jar,jar包放在eclipse安装目录/plugins/ 下,重启eclipse 2、添加原创 2015-01-28 10:35:09 · 4145 阅读 · 0 评论 -
在hive中实现之定义函数UDF
自定义函数有3中UDF:1对1的关系,函数对每一行执行UDAF:多对1的关系,聚合函数,用在group by的时候UDTF:1对多的关系,比如把一行数据拆成多行UDF函数可以直接应用于select语句,对查询结构做格式化处理后,再输出内容。2、编写UDF函数的时候需要注意一下几点:a)自定义UDF需要继承org.apache.hadoop.hive.ql.UDF原创 2016-08-25 17:26:14 · 898 阅读 · 0 评论 -
hive函数大全
一、关系运算:1. 等值比较: = 语法:A=B 操作类型:所有基本类型 描述:如果表达式A与表达式B相等,则为TRUE;否则为FALSE 举例: hive>select 1 from lxw_dual where 1=1; 12. 不等值比较: 语原创 2016-08-02 12:15:04 · 2126 阅读 · 0 评论 -
在Ubuntu下安装与配置hadoop(伪分布)
1、先在虚拟机(VM10)中安装好两台Ubuntu14,用户名必须一样,机器名一台取名master,一台取名slave2、安装VMtoolshttp://blog.youkuaiyun.com/bryan__/article/details/430836133、安装jdk:在终端中输入Java ,会提示你安装。输入命令4、在两台机器/etc/hosts中添加 ip和对应机器名 输入命令原创 2015-01-27 15:35:52 · 1027 阅读 · 0 评论 -
Hive几种数据导入方式
总结Hive的几种常见的数据导入方式,一共四种:(1)、从本地文件系统中导入数据到Hive表;(2)、从HDFS上导入数据到Hive表;(3)、从别的表中查询出相应的数据并导入到Hive表中;(4)、在创建表的时候通过从别的表中查询出相应的记录并插入到所创建的表中。 一、从本地文件系统中导入数据到Hive表 先在Hive里面创建好表,如下:原创 2016-08-01 15:33:05 · 937 阅读 · 0 评论 -
ubuntu14.04+hadoop2.6.2+hive1.1.1
1.Hive是基于Hadoop构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据。其在Hadoop的架构体系中承担了一个SQL解析的过程,它提供了对外的入口来获取用户的指令然后对指令进行分析,解析出一个MapReduce程序组成可执行计划,并按照该计划生成对应的MapReduce任务提交给Hadoop集群处理,获取最终的结果。元数据——如表模式原创 2016-07-29 17:50:25 · 932 阅读 · 0 评论 -
数据倾斜
1数据倾斜的原因1.1操作:关键词情形后果Join其中一个表较小,但是key集中分发到某一个或几个Reduce上的数据远高于平均值大表与大表,但是分桶的判断字段0值或空值过多这些空值都由一个reduce处理,灰常慢group byg原创 2016-07-22 22:46:29 · 7434 阅读 · 0 评论 -
ubuntu 安装SSH并设置免密码登录
1,确认已联网,输入命令 Java代码 sudo apt-get install ssh 2,配置免密码登录本机 2-1,查看用户名下是否存在.ssh文件夹 (xxxx为你的用户名) Java代码 ls -a/home/xxxx 一般来说,安装SSH会自动在当前用户下创建这个原创 2015-01-23 23:57:12 · 7721 阅读 · 0 评论 -
用hadoop运行一个简单程序WordCount
1、在hadoop目录下面新建两个文件夹,随便输入一些语句2、在HDFS上创建输入文件夹呼出终端,输入下面指令(要在/usr/hadoop/hadoop0.21.0/目录下):bin/hadoop fs -mkdir hdfsInput执行这个命令时可能会提示类似安全的问题,如果提示了,请使用bin/hadoop dfsadmin -safemode leave来退出安原创 2015-01-25 11:10:48 · 2749 阅读 · 0 评论 -
Ubuntu下安装VMtools
1.在我的计算机里右击要安装vmtools的系统,选择安装vmtools.2.桌面会出现VMware Tools文件夹3.在终端输入 cd /media/你的用户名/再输入 ls 查看目录下文件再输入 cd VM 按下tab键自动补全输入ls 可以看到目录下有个tar.gz包,解压他输入 tar -xvf VM(按tab自动补全) -C /tmp 将原创 2015-01-24 11:04:47 · 1232 阅读 · 0 评论 -
如何解决hive同时计算多个分位数的问题
众所周知,原生hive没有计算中位数的函数(有的平台会有),只有计算分位数的函数percentile在数据量不大的时候,速度尚可。但是数据量一上来之后,完全计算不出来。那么如何解决这个问题呢,我们可以使用 row_number() over()通过两次排序来解决同时计算多个分位数比如我们需要计算mkt_mcc_storeidx表下以mkt_label,mccgroup,month分组,原创 2016-08-15 11:20:53 · 16029 阅读 · 2 评论