跟我一起学【Hadoop】之——经典场景分析

本文深入探讨了大数据领域的关键技术和应用场景,包括Hive分区表优化、Spark处理复杂数据、HBase表设计、Kafka消息传递、MapReduce实例、Spark资源监控等,提供了详实的操作指南和实践案例。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.hive 切片表和历史分区表 查询效率的测试

hive分区表陷阱(不load数据到hive,而是put数据到hdfs分区目录下,hive查不到数据)

解决方法(msck repair table table_name;):https://yq.aliyun.com/articles/513814

答案:分区表是hdfs上以文件夹的形式存在,为了提高查询效率。

2.hive脚本定时执行的方式

答案:crontab -e或者Hue提交

3.sqoop执行的周期

sqoop增量导入并按时间分区:https://blog.youkuaiyun.com/SunWuKong_Hadoop/article/details/93638778

4.spark运用的场景,实操

答案:

需求描述:统计日志文件中本周末网购停留总时间超过2个小时的女性网民信息;

  • Spark Core程序
  • Spark Sql

需求描述:实时统计连续网购时间超过半个小时的女性网民信息

  • Spark Streaming

①Spark Streaming Write To Print

②Spark Streaming Write To Kafka

  • 通过JDBC访问Spark Sql
  • Spark on Hbase 创建表、读取表、向表中插入数据
  • 从Hbase读取数据再写入Hbase

需求描述:

  • 从Hive读取数据再写入Hbase
  • Spark Streaming从Kafka读取数据再写入Hbase
  • Hive ODBC程序

5.python爬虫的框架,常用包

框架:https://blog.youkuaiyun.com/SunWuKong_Hadoop/article/details/92802145

常用包:Bokeh、Jupyter Notebook、Keras、Matplotlib、Numpy、Pandas、Scikit=Learn、SciPy、Seaborn

6.hbase的应用场景,数据仓库中的位置,怎样设计表结构

hbase的应用场景1:https://blog.youkuaiyun.com/SunWuKong_Hadoop/article/details/92802045

hbase的应用场景2:http://blog.sina.com.cn/s/blog_ae33b83901016azb.html

hbase rowkey及建表方式设计:https://blog.youkuaiyun.com/SunWuKong_Hadoop/article/details/85766186

7.拉链表的设计和实操

答案:https://blog.youkuaiyun.com/SunWuKong_Hadoop/article/details/90796856

答案:https://blog.youkuaiyun.com/SunWuKong_Hadoop/article/details/91810916

8.kafka、storm的常用操作,替换为Kafka+Flink!

强烈推荐博主:https://www.cnblogs.com/smartloli/p/10245105.html

9.MapReduce实例

答案:倒排索引 https://www.cnblogs.com/walker-/p/9669631.html

10.spark的资源监控

简介:https://www.cnblogs.com/ulysses-you/p/10187434.html#_label1

详细:http://ifeve.com/spark-monitor/

11.增量数据的处理方式

答案:sqoop增量 https://blog.youkuaiyun.com/whdxjbw/article/details/81079746

12.维度表的设计

参考:《离线和实时大数据开发实战》

13.为什么要建设维度表

答案:https://blog.youkuaiyun.com/SunWuKong_Hadoop/article/details/91959117

14.hive开发udf的目的,运行优点

答案:https://blog.youkuaiyun.com/universe_ant/article/details/50908050

15.sql怎样解读成MapReduce

答案:https://blog.youkuaiyun.com/iteye_3893/article/details/82611410

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值