1.hive 切片表和历史分区表 查询效率的测试
hive分区表陷阱(不load数据到hive,而是put数据到hdfs分区目录下,hive查不到数据)
解决方法(msck repair table table_name;):https://yq.aliyun.com/articles/513814
答案:分区表是hdfs上以文件夹的形式存在,为了提高查询效率。
2.hive脚本定时执行的方式
答案:crontab -e或者Hue提交
3.sqoop执行的周期
sqoop增量导入并按时间分区:https://blog.youkuaiyun.com/SunWuKong_Hadoop/article/details/93638778
4.spark运用的场景,实操
答案:
需求描述:统计日志文件中本周末网购停留总时间超过2个小时的女性网民信息;
- Spark Core程序
- Spark Sql
需求描述:实时统计连续网购时间超过半个小时的女性网民信息
- Spark Streaming
①Spark Streaming Write To Print
②Spark Streaming Write To Kafka
- 通过JDBC访问Spark Sql
- Spark on Hbase 创建表、读取表、向表中插入数据
- 从Hbase读取数据再写入Hbase
需求描述:
- 从Hive读取数据再写入Hbase
- Spark Streaming从Kafka读取数据再写入Hbase
- Hive ODBC程序
5.python爬虫的框架,常用包
框架:https://blog.youkuaiyun.com/SunWuKong_Hadoop/article/details/92802145
常用包:Bokeh、Jupyter Notebook、Keras、Matplotlib、Numpy、Pandas、Scikit=Learn、SciPy、Seaborn
6.hbase的应用场景,数据仓库中的位置,怎样设计表结构
hbase的应用场景1:https://blog.youkuaiyun.com/SunWuKong_Hadoop/article/details/92802045
hbase的应用场景2:http://blog.sina.com.cn/s/blog_ae33b83901016azb.html
hbase rowkey及建表方式设计:https://blog.youkuaiyun.com/SunWuKong_Hadoop/article/details/85766186
7.拉链表的设计和实操
答案:https://blog.youkuaiyun.com/SunWuKong_Hadoop/article/details/90796856
答案:https://blog.youkuaiyun.com/SunWuKong_Hadoop/article/details/91810916
8.kafka、storm的常用操作,替换为Kafka+Flink!
强烈推荐博主:https://www.cnblogs.com/smartloli/p/10245105.html
9.MapReduce实例
答案:倒排索引 https://www.cnblogs.com/walker-/p/9669631.html
10.spark的资源监控
简介:https://www.cnblogs.com/ulysses-you/p/10187434.html#_label1
详细:http://ifeve.com/spark-monitor/
11.增量数据的处理方式
答案:sqoop增量 https://blog.youkuaiyun.com/whdxjbw/article/details/81079746
12.维度表的设计
参考:《离线和实时大数据开发实战》
13.为什么要建设维度表
答案:https://blog.youkuaiyun.com/SunWuKong_Hadoop/article/details/91959117
14.hive开发udf的目的,运行优点
答案:https://blog.youkuaiyun.com/universe_ant/article/details/50908050
15.sql怎样解读成MapReduce
答案:https://blog.youkuaiyun.com/iteye_3893/article/details/82611410