跟我一起学【Hadoop】之——经典场景分析

最新推荐文章于 2024-10-31 21:32:30 发布

SunWuKong_Hadoop

最新推荐文章于 2024-10-31 21:32:30 发布

阅读量1.2k

点赞数

CC 4.0 BY-SA版权

分类专栏：笔记大数据 Hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/SunWuKong_Hadoop/article/details/90796712

大数据同时被 3 个专栏收录

18 篇文章

订阅专栏

12 篇文章

订阅专栏

5 篇文章

订阅专栏

本文深入探讨了大数据领域的关键技术和应用场景，包括Hive分区表优化、Spark处理复杂数据、HBase表设计、Kafka消息传递、MapReduce实例、Spark资源监控等，提供了详实的操作指南和实践案例。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.hive 切片表和历史分区表查询效率的测试

hive分区表陷阱（不load数据到hive，而是put数据到hdfs分区目录下，hive查不到数据）

解决方法（msck repair table table_name;）：https://yq.aliyun.com/articles/513814

答案：分区表是hdfs上以文件夹的形式存在，为了提高查询效率。

2.hive脚本定时执行的方式

答案：crontab -e或者Hue提交

3.sqoop执行的周期

sqoop增量导入并按时间分区:https://blog.youkuaiyun.com/SunWuKong_Hadoop/article/details/93638778

4.spark运用的场景，实操

答案：

需求描述：统计日志文件中本周末网购停留总时间超过2个小时的女性网民信息；

Spark Core程序
Spark Sql

需求描述：实时统计连续网购时间超过半个小时的女性网民信息

Spark Streaming

①Spark Streaming Write To Print

②Spark Streaming Write To Kafka

通过JDBC访问Spark Sql
Spark on Hbase 创建表、读取表、向表中插入数据
从Hbase读取数据再写入Hbase

需求描述：

从Hive读取数据再写入Hbase
Spark Streaming从Kafka读取数据再写入Hbase
Hive ODBC程序

5.python爬虫的框架，常用包

框架：https://blog.youkuaiyun.com/SunWuKong_Hadoop/article/details/92802145

常用包：Bokeh、Jupyter Notebook、Keras、Matplotlib、Numpy、Pandas、Scikit=Learn、SciPy、Seaborn

6.hbase的应用场景，数据仓库中的位置，怎样设计表结构

hbase的应用场景1：https://blog.youkuaiyun.com/SunWuKong_Hadoop/article/details/92802045

hbase的应用场景2：http://blog.sina.com.cn/s/blog_ae33b83901016azb.html

hbase rowkey及建表方式设计：https://blog.youkuaiyun.com/SunWuKong_Hadoop/article/details/85766186

7.拉链表的设计和实操

答案：https://blog.youkuaiyun.com/SunWuKong_Hadoop/article/details/90796856

答案：https://blog.youkuaiyun.com/SunWuKong_Hadoop/article/details/91810916

8.kafka、storm的常用操作，替换为Kafka+Flink！

强烈推荐博主：https://www.cnblogs.com/smartloli/p/10245105.html

9.MapReduce实例

答案：倒排索引 https://www.cnblogs.com/walker-/p/9669631.html

10.spark的资源监控

简介：https://www.cnblogs.com/ulysses-you/p/10187434.html#_label1

详细：http://ifeve.com/spark-monitor/

11.增量数据的处理方式

答案：sqoop增量 https://blog.youkuaiyun.com/whdxjbw/article/details/81079746

12.维度表的设计

参考：《离线和实时大数据开发实战》

13.为什么要建设维度表

答案：https://blog.youkuaiyun.com/SunWuKong_Hadoop/article/details/91959117

14.hive开发udf的目的，运行优点

答案：https://blog.youkuaiyun.com/universe_ant/article/details/50908050

15.sql怎样解读成MapReduce

答案：https://blog.youkuaiyun.com/iteye_3893/article/details/82611410

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。