- 博客(5)
- 资源 (3)
- 收藏
- 关注
原创 Hive部分内置函数对表中NULL字段的处理(备忘)
测试表test数据如下:vid vd 100001 NULL 100001 NULL 测试sql如下:select vid,count(vd),size(collect_list(vd)) from test group by vid运行结果如下:100001 0 0说明:hive中上述函数在处理nu...
2019-07-31 10:53:20
704
原创 kettle(6.0)如何连接远程集群(CDH5.1)?
最近因为公司业务需要,刚刚接触了kettle.这不看不知道,一看才发现kettle的功能是在是太强大了,让我有种相见恨晚的感觉。由于主要是应用kettle与hadoop集群和hive连接进行数据处理。所以这里简单叙述下kettle与hadoop集群连接时的大致步骤: 1.双击kettle(即data-integeration)目录下的spoon.bat,启动kettle 2.kettle启动后
2016-11-09 11:13:09
1452
原创 Hadoop集群搭建过程中遇到的那些事
数周前,开始搭建和测试hadoop集群环境。虽然有相关文档,还是遇到了许多问题,也学到了很多。趁现在整理一二,仅供同道中人参考。 1.Input path does not exists ... 解决:如果路径确实没错,那可能是配置问题。可以将三份配置文件拷贝到工程的src文件夹下面:core-site.xml,hdfs-site.xml,log4j.properties. 2.
2016-09-22 10:43:55
279
原创 函数声明、 函数表达式 与立即调用函数表达式的比较
函数声明 函数声明创建将来代码调用的函数。函数可以在声明之前的位置被调用。代码样例如下: //可以在声明之前的位置被调用var size=area(3,6);function area(width,height){ return width*height;};//可以在声明之后的位置被调用var size2=area(2,4);函数表达式 将函数放在本
2016-09-16 22:50:04
995
原创 Hadoop知识结构浅记
众所周知,hadoop是一个分布式计算框架,能在由大量廉价的硬件设备组成的集群上运行应用程序,并且为应用程序提供了一组既稳定又可靠的接口。它应用的目的是构建一个具有高可靠性和良好扩展性的分布式操作系统。这就行合体机器人一样,每一个部件都相当于小机器人,功能和力量都很弱,但组合后就可以变得很强。而且,组件的形式可以无限细分。附上学习结构图
2016-09-08 13:11:14
326
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人