
大数据
文章平均质量分 89
大数据技术栈
lehsyh
这个作者很懒,什么都没留下…
展开
-
Sqoop详解
数据的导入和导出本质上是Mapreduce程序,充分利用了MR的并行化和容错性。Sqoop工具接收到客户端的shell命令或者Java api命令后,通过Sqoop中的任务翻译器(Task Translator)将命令转换为对应的MapReduce任务,而后将关系型数据库和Hadoop中的数据进行相互转移,进而完成数据的拷贝。对于不同的命令,有不同的参数,这里给大家列出来了一部分Sqoop操作时的常用参数,以供参考,需要深入学习的可以参看对应类的源代码,本文目前介绍常用的导入、导出的一些命令。转载 2023-11-08 10:32:58 · 3204 阅读 · 1 评论 -
livy部署及应用
Livy把spark交互式和批处理都搬到了web上,提供restful接口,Livy一方面接收并解析客户端提交的REST请求,转换成相应的操作,另一方面它管理着客户端所启动的spark集群Livy会为用户运行多个session,每个session就是一个常驻的spark context也可以成为一个spark集群。用户通过restful接口在对应的spark context执行代码,Livy服务端通过RPC协议与Spark集群进行通信。原创 2023-05-09 20:16:50 · 1226 阅读 · 1 评论 -
sqoop同步数据
(1) 把lzo的jar包复制到sqoop_home的lib下: sqoop-1.4.7.bin__hadoop-2.6.0]$ cp hadoop-lzo-0.4.20.jar lib/sqoop需要hadoop2.x环境,所以在配置环境里加相应的配置(感觉配置HADOOP_COMMON_HOME和HADOOP_MAPRED_HOME不太有效)3) mysql数据导入到hdfs。这两个参数需要进一步验证有效性。1) 查看数据库列表。...原创 2022-08-29 21:51:51 · 890 阅读 · 0 评论 -
hadoop3.x支持LZO压缩配置
hadoop3本身并不支持lzo压缩,故需要使用twitter提供的hadoop-lzo开源组件。hadoop-lzo需要依赖hadoop和lzo进行编译,编译步骤如下翻译 2022-08-08 10:33:12 · 799 阅读 · 0 评论 -
Spark—结构化流Structured Streaming编程指南-Streaming Query
定义了最终结果DataFrame/Dataset之后,剩下的就是开始流计算了,为此,必须使用Dataset.writeStream()方法返回的DataStreamWriter。而且必须在这个接口中指定一个或多个以下内容:1.输出接收器的详细信息:数据格式、位置等。2.输出模式:指定写入输出接收器的内容。3.查询名称:可选,为标识指定查询的唯一名称。4.触发间隔:可选,指定触发间隔。如果没有指定,系统将在之前的处理完成后立即检查新数据的可用性。如果由于之前的处理没有完成而错过了触发时间,那么转载 2022-05-09 10:52:18 · 1027 阅读 · 0 评论 -
Spark SQL 的 Catalyst介绍
一、SQL解析细节(通用)Parse:SQL语句解析生成ASTBind:元数据绑定Optimize:优化执行策略Execute:执行二、Catalyst概念SQL优化器核心执行策略主要分为两个大的方向:基于规则优化(RBO)以及基于代价优化(CBO),基于规则优化是一种经验式、启发式的优化思路,更多地依靠前辈总结出来的优化规则,简单易行且能够覆盖到大部分优化逻辑,但是对于核心优化算子Join却显得有点力不从心一个简单的例子,两个表执行Join到底应该使用BroadcastHashJoin还转载 2022-04-06 16:06:44 · 420 阅读 · 0 评论 -
消息队列: pulsar安装部署
pulsar安装部署原创 2022-02-17 20:32:20 · 1360 阅读 · 0 评论 -
[转]HBase的特征和优点
Hbase是运行在Hadoop上的NoSQL数据库,它是一个分布式的和可扩展的大数据仓库,也就是说HBase能够利用HDFS的分布式处理模式,并从Hadoop的MapReduce程序模型中获益。这意味着在一组商业硬件上存储许多具有数十亿行和上百万列的大表。除去Hadoop的优势,HBase本身就是十分强大的数据库,它能够融合key/value存储模式带来实时查询的能力,以及通过MapReduc...原创 2015-08-26 21:12:15 · 239 阅读 · 0 评论