
Hadoop大数据
文章平均质量分 94
大数据相关
atwdy
大数据开发、数据挖掘
展开
-
【hadoop】hadoop streaming
hadoop streaming可以将任何可执行的文件,如sh脚本,py脚本,嵌入到分布式环境当中执行MR的逻辑,而不必局限于java语言。hadoop会在每个启动的任务进程中初始化指定的map或reduce脚本并执行,map或reduce任务通过标准输入流读取数据,标准输出流写出数据。,是key+一个value构成的迭代器。而streaming任务中,map输出的相同key的数据只会被依次相邻的送到同一个reduce这样。原创 2025-03-26 20:30:41 · 923 阅读 · 0 评论 -
【hive】HiveSQL中两个json解析函数的使用&json路径定位小工具
虽然逻辑上理解并不矛盾,尽管该UDTF返回的是个表,但一行输入只会对应一行输出,只是输出的字段可能是多个,并不像explode那样返回的是多行。和get_json_object不同的是,get_json_object是一个普通的UDF函数,返回的是一个值。,该函数适用于对传入的json对象一次性解析多个key的场景,如果用get_json_object需要解析多次,该函数只需要解析一次。(通配符个人认为适用的场景为取同一层级所有对象的某个属性时,如果是取所有对象本身,那么直接不加。原创 2024-08-04 03:57:17 · 1815 阅读 · 0 评论 -
【hive】数据采样
参考,可以直接查看原文,下面只是对原文进行概括和实际性能测试。原创 2024-07-05 19:22:30 · 1358 阅读 · 0 评论 -
【hive】transform脚本
和udf差不多的作用,支持用python实现。通过标准输入流从hive读取数据,内部处理完再通过标准输出流将处理结果返回给hive。实现流程上比udf要更简单灵活一些,只需要上传脚本=>add file加载到分布式缓存=>使用。原创 2024-05-05 20:10:38 · 1336 阅读 · 0 评论 -
【hive】lateral view侧视图
lateral view也叫侧视图,属于hive sql所特有的语法。用来实现类似标准sql中join的操作。join参与运算的往往是两个表,根据指定的关联字段进行横向连接。lateral view参与运算的是一张表,这张表里往往存在某个多值的字段,通过侧视图结合UDTF函数可以将这个多值字段拆分为粒度更小的值,每一个拆分出来的值都会作为新的字段和一条原记录进行拼接。类似于列转行操作,虽然严格意义上不算列转行,因为只是增加了行数,但并未减少列数,只是减少了列中所包含的字段个数。原创 2024-04-14 01:50:08 · 3966 阅读 · 0 评论 -
Hive优化
工作中涉及到优化部分不多,下面的一些方案可能会缺少实际项目支撑,这里主要是为了完备一下知识体系。原创 2024-03-18 04:30:26 · 1064 阅读 · 0 评论 -
Hive自定义UDF函数
UDF类实现简单,只需要实现evaluate()方法就可以了,并且该方法支持重载;GenericUDF类相对于UDF类复杂了一些,但提供了更加灵活的参数检查和更丰富的参数类型,开发中根据实际情况选择。上面的注册方式为临时注册,注册的函数只在当前session有效,一般只是测试使用。如果需要永久注册,可以先将jar包上传hdfs,然后通过命令永久注册。原创 2022-12-18 01:02:16 · 2528 阅读 · 0 评论