YuannaY
RETURN TRUE
展开
-
Kafka集群——(区别于Master/Slave架构的的分布式集群)
1.原创 2023-07-25 00:30:10 · 1396 阅读 · 0 评论 -
Hive查询性能优化——物化视图(materialized view)
物化视图概念: 预先计算和存储复杂查询结果好处: 便于后续查询能够快速得到结果,提升查询性能。坏处: 存在数据一致性问题,因为是预先计算和查询。这里我测试的数据量比较小,所以优化不是很明显,但是遇到超大数据的表,查询的性能提升还是非常明显的,尤其是对于聚合场景。原创 2023-07-23 00:51:02 · 580 阅读 · 0 评论 -
HDFS-监控jstack脚本
服务挂掉了,并且在日志中没有发现是什么原因导致服务挂掉,需要进一步分析当时挂掉时候的进程的jstack信息;原创 2023-07-22 22:43:25 · 664 阅读 · 0 评论 -
数仓报表数据导出——Hive数据导出至Clickhouse
写入Clickhouse。原创 2023-07-16 17:36:17 · 784 阅读 · 0 评论 -
SQL分类练习(一):同时在线人数
(order_id-订单号, uid-用户ID, driver_id-司机ID, order_time-接单时间, start_time-开始计费的上车时间, finish_time-订单完成时间, mileage-行驶里程数, fare-费用, grade-评分)(uid-用户ID, artical_id-文章ID, in_time-进入时间, out_time-离开时间, sign_in-是否签到)确定开始和结束时间,in_datetime 和 out_datetime, 然后分别标记为1和-1。原创 2023-07-13 23:22:21 · 916 阅读 · 0 评论 -
Hadoop基础——MapReduce
1) 序列化和反序列化的含义序列化是将内存中的对象转换为字节序列,以便持久化和网络传输。反序列化就是将字节序列或者是持久化数据转换成内存中的对象。Java的序列化是一个重量级序列化框架(Serializable),一个对象被序列化后,会附带很多额外的信息,不便于在网络中高效传输,所以hadoop开发了一套序列化机制(Writable)2)自定义bean对象序列化传输步骤及注意事项必须实现Writable接口反序列化时, 需要反射调用空参构造函数,所以必须有空参构造重写序列化方法。原创 2023-07-02 22:15:02 · 645 阅读 · 0 评论 -
Hadoop基础——HDFS知识点梳理
NameNode,DataNodeSecondary NameNode( HA模式下是 StandBy NameNode)Client: 客户端文件切分,文件上传HDFS时,client将文件切分成一个一个的block,然后进行存储。与NN交互,获取文件的位置信息。与DN交互,读取或者写入数据。Client提供一些命令来管理HDFS, 比如启动或者关闭HDFSClient可以通过一些命令来访问HDFS管理hdfs的命名空间管理数据块的映射信息。原创 2023-06-29 23:42:01 · 1067 阅读 · 0 评论 -
大数据ETL工具对比(Sqoop, DataX, Kettle)
DataX和Kettle都是通用的数据集成工具,支持多种数据源和目标,提供了强大的数据转换和清洗功能。DataX和Kettle的区别在于开发者和用户群体,DataX在阿里巴巴内部得到广泛应用,而Kettle则是一个独立的开源项目。Sqoop主要用于Hadoop和关系型数据库之间的数据传输,适用于大规模数据的导入导出任务。原创 2023-06-28 00:08:12 · 12418 阅读 · 0 评论